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神经 网 络 是 计算 智能 和 机 器 学 习 研 究 、 开 发 和 应 用 最 活跃 的 分 支 之 一 。 本 书 是 神经 网 络 
方面 的 标准 教材 ， 从 理论 和 实际 应 用 出 发 ， 全 面 、 系 统 地 介绍 神经 网 络 的 基本 模型 、 基 本 方 
法 和 基本 技术 ， 对 神经 网 络 的 基本 模型 和 主要 学 习 理论 都 作 了 深入 研究 ， 特 别 在 学 习 理论 和 
学 习 算法 的 推导 方面 有 极为 详尽 而 系统 地 分 析 ， 对 神经 网 络 的 最 新 发 展 趋势 和 主要 研究 方向 
\ 都 进行 了 全 面 而 综合 的 介绍 。 理 论 和 实际 应 用 紧密 结合 ， 为 神经 网 络 的 具体 应 用 打下 坚实 的 
| 基础 ， 是 一 本 可 读 性 极 强 的 教材 。 
| 书 中 注重 对 数学 分 析 方法 和 性 能 优化 的 讨论 ， 强 调 神经 网 络 在 模式 识别 、 信 号 处 理 以 及 
控制 系统 等 实际 工程 问题 中 的 应 用 。 同 时 本 书包 含 大 量 例题 、 习 题 ， 并 配 有 13 个 基于 
MATLAB 软 件 包 的 计算 机 试验 的 源 程序 。 
本 书 适合 作为 相关 专业 研究 生 或 本 科 高 年 级 学 生 的 教材 ， 或 作为 希望 系统 、 深 入 学 习 神 
经 网 络 的 科技 工作 者 的 参考 书 。 
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波 器 等 领域 成 果 颇 丰 ， 著 有 多 种 标准 教材 
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神经 移 络 是 计算 智能 和 机 器 学 习 研究 的 最 活跃 的 分 支 之 一 。 本 书 全 面 系统 地 介绍 神经 网 
络 的 基本 概念 、 系 统 理 论 和 实际 应 用 。 

本 书包 含 四 个 组 成 部 分 : 导论 ， 监 督学 习 ， 无 监督 学 习 ， 神 经 网 络 动力 学 模型 。 导 论 部 
分 介绍 神经 元 模型 、 神 经 网 络 结构 和 机 器 学 习 的 基本 概念 和 理论 。 监 督学 习 讨论 感知 机 学 习 
规则 ， 有 监督 的 Hebb 学 习 ，Widrow-Hoff 学 习 算法 ， 反 向 传播 算法 及 其 变形 ，RBF 网 络 ， 正 则 
化 网 络 ， 支 持 向 量 机 以 及 委员 会 机 器 。 无 监督 学 习 包括 主 分 量 分 析 ， 自 组 织 特征 映射 模型 的 
竞争 学 习 形 式 ， 无 监督 学 习 的 信息 理论 ， 植 根 于 统计 力学 的 随机 学 习 机 器 ， 最 后 是 与 动态 规 
划 相 关 的 增强 式 学 习 。 神 经 网 络 动力 学 模型 研究 由 短期 记忆 和 分 层 前 馈 网 络 构 成 的 动态 系统 ， 
反馈 非 线 性 动态 系统 的 稳定 性 和 联想 记忆 ， 以 及 另 一 类 非 线 性 动态 驱动 的 递归 网 络 系统 。 

本 书 注重 对 数学 分 析 方 法 和 性 能 优化 的 讨论 ， 强 调 神经 网 络 在 模式 识别 、 信 号 处 理 和 控制 
系统 等 实际 工程 问题 中 的 应 用 。 书 中 包含 大 量 例题 和 习题 ， 并 配 有 13 个 基于 MATLAB 软件 的 计算 
机 实验 程序 。 

本 书 适 于 作 研 究 生 或 大 学 高 年 级 学 生 的 教材 ， 也 可 作 和 希望 深入 学 习 神 经 网 络 的 科技 人 员 的 
参考 书 。 
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出 版 者 的 话 


文 乞 复兴 以 降 ， 源 十 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 

欧 断 性 的 优势 : 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 上 多 年 间 名 

、 独 领 风 怠 ， 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 起 紧密 地 结合 .计算 机 

were i nee ne Pay Ak BL OEA RER, hem ZS eB BE 
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内 1 EA É h 流逝 而 减退 

， 在 全 球 信息 化 大 潮 的 推动 下 、 annie We Ag RB ht, X eh ACA oR H 

yay 这 计算 机 教育 界 和 出 版 界 都 既是 届 遇 ， 也 是 挑战 ;而 入 业 教 材 的 建设 在 教育 战略 

上 时 得 举足轻重 。 在 我 国信 息 技 术 发 展 时 间 较 短 、 上 人员 较 少 的 现状 下 ， 美 国 等 发 达 国 家 

在 其 计算 机 科学 发 展 的 几 二 年间 积 淀 的 经 典 教 材 仍 有 许多 值得 借鉴 之 处 。 因此， 引进 -… 批 国 

外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 积极 的 推动 作用 ， 也 是 与 挝 界 接 轨 、 建 
没 其 下 的 世界 一 流 大 学 的 必 申 之 路 ， 

亿 械 工业 出 版 社 华章 峡 文 信息 有 限 公司 较 早 意识 到 HNO ATE 服务 自 1998 年 开始 ， 

华 世 公司 就 将 工作 重点 放 在 了 入选、 移 详 国外 优秀 教 佬 上 a 我 们 与 


Prentice Hali, Addison-Wesley, McGraw-Hill, Morgan Kaufmann 址 界 著 各 出 版 公司 建立 了 
展 好 的 合作 关系 ， 从 它们 现 有 的 数 百 种 教材 中 是 选 出 Tanenbaum 、 so Kernighan, 
Jim Gray 等 大 师 名 家 的 一 批 经 典 作 品 ， 以 “计算 机 科学 从 书 ” 为 总 称 出 版 ， 供 读者 学 习 、 研 


FN RE RT SCY SY IAL Wik Pe 了 这 会 从 书 的 品位 和 格调 - 
“计算 机 科学 丛书 ”的 出 版 莽 作 得 到 了 国内 外 学 者 的 归 力 吉 助 ， 国 内 的 专家 不 仅 提 供 了 中 

eran AMES HTH FOR ind 工作 ; 而 原 书 的 作者 也 相当 大 注 其 作品 在 

PIG. 有 的 人 还 专 减 为 其 书 的 中 译本 作 序 、 迄今 , “计算 机 科学 丛书” 已 经 出 版 了 近 听 个 
品种 ， 这 些 书籍 在 读者 中 树立 了 良好 的 口碑 ， FMF ERR AUER SE BEE, 为 
进一步 推广 与 发 展 打下 了 坚实 的 基础 

随 着 学 科 建 设 的 初步 完善 和 教材 改革 的 逐渐 深化 ,教育 界 对 国外 计算 机 教材 的 再 求 和 应 
用 都 步 人 一 个 新 的 阶段 。 为 此 ， 华 章 公 司 将 如 大 引进 教材 的 力度 ， 在 “华章 教育 ”的 总 规划 
之 下 出 版 于 个 系列 的 计算 机 教材 : 除 “计算 机 科学 丛书” 之 外 ， 对 影印 版 的 教材 ， 则 单独 开 
BEA “Ze FG BA 同时 ，31 进 全 美 通行 的 教学 铺 导 书 “Schaum's Outlines” 系 列 组 成 
“ 企 美 经 典 学 习 指 导 系 列 ”， 为 了 保证 这 :: 套 丛书 的 权威 性 ， 同 时 也 为 了 更 好 地 为 党校 和 老师 
们 服务 ， 华 党 公司 聘请 了 中 国 科学 院 、 北 京 大 学、 清华 大 学 、 国 防 科 技 太 学、 复 日 大堂 、 上 
Pen 南京 大 学 、 浙 江 大 学 、 中 国 科 技 太 学、 哈尔滨 工业 大 学 、 西 安 交 通 大 学 、 中 国 
和 人民 大 学 、 北 京 航空 航天 大 学 、 北 京 邮 电大 学 、 中 山大 学 、 解 放 军 理工 大 学 、 郑 州 大 学 、 湖 
北 工 学 院 、 1 国 国 家 信息 安全 测评 认证 中 心 等 国内 重点 大 学 和 科研 机 构 在 计算 机 的 各 个 领域 
的 车 名 学 者 组 成 “专家 指导 委员 会 “， 为 我 们 提供 选 题 意 见 和 出 版 监督 。 

这 二 套 从 书 是 响应 教育 部 提出 的 使 用 外 版 教材 的 号 召 ， 为 国内 高 校 的 计算 机 及 相关 专业 








的 教学 度 身 订 造 的 其 中 许多 教材 均 已 为 M. LT., Stanford, U.C. Berkeley, C. M. U. 等 世界 
名 有 牌 大 学 所 采用 。 不仅 涵盖 了 程序 设计 、 数 据 结构 、 操 作 系 统 、 计 算 机 体系 结构 、 数 据 库 、 
编 详 原 理 、 软 件 工 程 、 图 形 学 、 通 信和 与 网 络 、 离 散 数 学 等 国内 大 学 计算 机 专业 普遍 开设 的 核 
心 课程 ， 而 且 各 具 特 色 一 一 有 的 出 自 语 言 设计 者 之 手 、 有 的 历经 三 十 年 而 不 衰 、 有 的 已 被 全 
此 界 的 几 百 所 高 校 采用 :在 这 些 圆 熟 通 博 的 名 师 大 作 的 指引 之 下 ， 读 者 必 将 在 计算 机 科学 的 
EPMO EEE TA 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 ， 但 我 们 的 目标 是 尽善尽美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 
的 重要 帮助 .教材 的 出 版 只 是 我 们 的 后 续 服务 的 起 点 .华章 公司 欢迎 老师 和 读者 对 我 们 的 工 
作 提 出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


电子 邮件 ， hzedu@hzbook.com 

联系 电话 : ( 010 ) 68995264 

联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 
Heert}: 100037 
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神经 网 络 系统 研究 的 重要 意义 已 为 许多 科学 家 所 承认 ， 它 是 智能 计算 发 展 的 一 个 主流 方 
向 。20 世纪 80 年 代 中 期 以 来 ， 神 经 网 络 重新 引起 了 许多 科技 工作 者 的 兴趣 ， 形 成 近代 非 线 
性 科学 和 计算 智能 研究 的 主要 内 容 之 一 。 特 别 是 神经 网 络 经 历 了 新 近 20 年 的 迅速 发 展 ， 它 
所 具备 的 独特 知识 表示 结构 和 信息 处 理 的 原则 ， 使 其 在 许多 应 用 领域 取得 了 显著 的 进展 ， 能 
够 为 解决 一 些 传统 计算 机 极 难 求解 的 问题 提供 满意 的 解 ， 或 者 为 寻求 满意 解 提供 全 新 的 思 
路 。 

神经 网 络 由 于 其 信息 处 理 机 制 和 成 功 应 用 ， 实 际 上 已 成 为 智能 信息 处 理 的 主要 技术 之 
一 。 世 界 上 许多 知名 大 学 开设 了 神经 网 络 的 研究 生 专门 课程 。 在 中 国 ， 多 年 以 来 神经 网 络 也 
被 纳入 许多 著名 大 学 的 研究 生 课程 ， 使 得 神经 网 络 这 个 信息 处 理工 具 逐 渐 为 许多 智能 信息 处 
理工 作者 所 掌握 。 

在 神经 网 络 理论 日 渐 成 熟 ， 它 的 应 用 逐渐 扩大 和 深入 的 形势 下 ， 如 何 把 握 神经 网 络 的 研 
究 方 向 ， 面 向 应 用 和 面向 广大 神经 网 络 的 应 用 者 和 研究 者 ， 介 绍 神经 网 络 的 系统 理论 和 最 新 
发 展 ， 成 为 神经 网 络 课 程 教学 面临 的 重大 挑战 。 其 中 如 何 挑选 好 的 教材 成 为 关键 的 第 一 步 。 
目前 国内 已 有 的 一 些 神经 网 络 教 材 ， 其 内 容 还 停留 在 国际 上 神经 网 络 上 世纪 90 年 代 初 期 的 
发 展 水 平 。 纵 观 神 经 网 络 发 展 的 历史 ， 特 别 是 近 20 年 发 展 的 历史 ， 我 们 可 以 发 现 神经 网 络 
的 理论 和 学 习 算 法 越 来 越 面 向 信息 处 理 ， 它 们 和 生物 智能 方面 建立 联系 的 同时 ， 统 计 理 论 、 
信息 理论 以 及 函数 空间 理论 方面 的 联系 日 趋 紧 密 。 这 些 方面 从 最 近 10 年 的 发 展 看 得 更 清楚 。 
不 管 是 从 独立 分 量 分 析 、 支 持 向 量 机 网 络 、 正 则 化 网 络 和 高 斯 过 程 ， 还 是 从 徐 雷 教授 的 阴阳 
机 学 习 理 论 ， 我 们 都 可 以 发 现 神经 网 络 的 发 展 目标 就 是 成 为 智能 信息 处 理 的 核心 工具 之 一 。 
这 一 点 在 模式 识别 领域 已 成 为 现实 。 作 为 神经 网 络 的 研究 生 教材 应 该 反映 神经 网 络 的 这 一 鲜 
明 特 征 ， 但 目前 国内 出 版 的 多 数 教材 尚 难 达到 这 一 要 求 。 这 本 书 正 是 反映 了 神经 网 络 研究 的 
主流 发 展 方向 和 最 新 研究 内 容 ， 所 以 自 出 版 以 来 就 成 为 许多 国际 知名 大 学 的 神经 网 络 研究 生 
教材 ， 受 到 教师 和 学 生 们 的 广泛 赞誉 。 

本 书 主要 讲述 神经 网 络 的 基本 概念 ， 介 绍 实用 的 网 络 模 型 和 学 习 算 法 。 全 书 分 为 15 章 ， 
内 容 涵盖 神经 网 络 理论 导论 、 监 督学 习 、 无 监督 学 习 和 神经 网 络 动力 学 模型 。 神 经 网 络 导论 
包括 神经 元 模型 和 网 络 结构 、 机 器 学 习 的 基本 理论 。 监 督学 习 包 括 感 知 机 学 习 规则 、 有 监督 
的 Hebb 学 习 、Widrow-Hoff 学 习 算法 、 反 向 传播 算法 及 其 变形 、RBF 网 络 、 正 则 化 网 络 、 支 
持 向 量 机 网 络 和 委员 会 机 器 。 无 监督 学 习 包 括 主 分 量 分 析 、 自 组 织 特征 映射 、 用 于 无 监督 学 
习 的 信息 理论 、 植 根 于 统计 力学 的 随机 学 习 机 器 和 增强 式 学 习 。 神 经 动力 学 模型 包括 内 人 短 
时 记忆 的 分 层 前 馈 网 络 动力 系统 、 递 归 网 络 的 稳定 性 和 学 习 问题 及 其 在 联想 记忆 中 的 应 用 。 
书 中 注重 对 数学 分 析 方 法 和 性 能 优化 的 讨论 ， 强 调 神经 网 络 在 模式 识别 、 信 号 处 理 以 及 控制 
系统 等 实际 工程 问题 中 的 应 用 。 同 时 本 书包 含 大 量 例 题 和 习题 ， 并 配 有 13 个 基于 MATLAB 
软件 的 计算 机 实验 的 源 程 序 。 

清华 大 学 出 版 社 已 经 出 版 本 书 的 影印 版 ， 这 使 得 中 国 的 学 生 有 幸 直接 阅读 英文 原版 教 
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材 。 但 是 译 者 在 中 国 科 学 院 研究 生 院 使 用 本 书 影印 版 作为 教材 讲授 神经 网 络 的 过 程 中 发 现 ， 
一 方面 由 于 研究 生 课 时 的 限制 ， 在 一 学 期 内 全 部 讲授 本 书 内 容 极其 困难 ， 所 以 只 能 选择 其 中 
一 些 内 容 讲授 ; 另 一 方面 ， 由 于 本 书 材料 非常 丰富 及 其 完整 性 ， 部 分 讲解 书 中 内 容 对 于 系统 
学 习 和 掌握 神经 网 络 的 原理 和 研究 方法 是 不 利 的 ， 而 初学 者 要 完整 阅读 本 书 原文 困难 也 很 
大 。 另 外 ， 由 于 神经 网 络 的 应 用 逐渐 深入 和 扩大 ， 许 多 学 习 神 经 网 络 的 其 他 读者 其 实 仪 仅 需 
了 解 神经 网 络 的 基本 原理 和 系统 方法 ， 他 们 学 习 神 经 网 络 的 目的 是 为 了 从 中 找到 具体 应 用 领 
域 的 解决 方法 或 者 获得 解决 问题 的 新 思路 。 对 于 他 们 而 言 ， 直 接 阅 读 原著 是 不 现实 的 ， 而 且 
没有 必要 。 基 于 上 述 原因 ， 翻 译 出 版 本 书 是 很 有 必要 的 。 

由 于 神经 网 络 的 迅速 发 展 ， 许 多 神经 网 络 的 新 名 词 和 概念 还 没有 确定 的 中 文 翻 译 ， 所 以 
在 本 书 中 凡是 我 们 认为 不 能 完全 确定 的 名 词 或 术语 都 在 其 第 一 次 出 现 的 地 方 给 出 对 应 的 英语 
词汇 ， 有 一 些 地 方 甚至 直接 引用 英语 词汇 本 身 。 最 后 在 书后 还 有 中 英文 对 照 索引 。 

在 这 本 书 的 翻译 中 ， 我 们 力求 忠实 、 准 确 地 反映 原著 的 内 容 ， 同 时 也 力求 保留 原著 的 风 
格 。 但 由 于 神经 网 络 属于 多 学 科 交 又 领 域 ， 研 究 范围 很 广 ， 近 年 来 研究 成 果 层 出 不 穷 ， 而 且 
译 者 水 平 有 限 ， 书 中 错误 和 不 准确 之 处 在 所 难免 ,县 请 读者 批评 指正 。 
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们 还 要 感谢 中 国 科 学 院 计算 技术 研究 所 智能 信息 处 理 重点 实验 室 的 支持 。 
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神经 网 络 ， 或 者 更 精确 地 说 人 工 神经 网 络 ， 是 一 种 植 根 于 许多 学 科 的 技术 ， 其 中 涉及 神 
经 科学 、 数 学 、 统 计 学 、 物 理学 、 计 算 机 科学 和 工程 学 。 神 经 网 络 具 有 的 一 个 重要 性 质 ， 即 
在 有 教师 或 无 教师 的 情况 下 能 够 从 输入 数据 中 进行 学 习 的 能 力 ， 这 使 得 它 在 不 同 领域 中 得 到 
应 用 ， 如 建 模 、 时 间 序 列 分 析 、 模 式 识别 、 信 号 处 理 和 控制 。 

由 于 神经 网 络 具 有 多 学 科 性 ， 本 书 对 该 主题 进行 了 综合 论述 ， 并 给 出 了 大 量 例子 、 基 于 
计算 机 的 实验 、 习 题 以 及 参考 文献 进行 补充 分 析 。 

本 书 由 四 部 分 组 成 ， 组 织 如 下 : 

1. 介绍 材料 ， 由 第 1 章 和 第 2 章 组 成 。 第 1 章 大 体 上 定性 描述 什么 是 神经 网 络 ， 它 们 的 
性 质 、 组 成 及 其 怎样 和 人 工 智 能 相 联系 。 这 章 以 一 些 历 史 注 释 结束 。 第 2 章 提供 学 习 过 程 的 
许多 侧面 的 概述 及 其 统计 性 质 。 该 章 引进 了 一 个 重要 概念 ， 即 Vapnik-Chervonenkis( VC) 维 数 ， 
用 于 度量 学 习 机 器 所 实现 的 一 簇 分 类 函数 的 容量 。 

2. 有 教师 学 习 机 器 ， 由 第 3 章 至 第 7 章 组 成 。 第 3 章 研 究 这 部 分 中 最 简单 的 神经 网 络 : 
涉及 一 个 或 多 个 输出 神经 元 但 无 隐藏 神经 元 的 网 络 。 该 章 描 述 最 小 均 方 (LMS) 算 法 (在 设计 
线性 自 适应 滤波 器 时 非常 流行 ) 和 感知 器 收敛 定理 。 第 4 章 给 出 利用 反 向 传播 算法 训练 的 多 
层 感 知 器 的 完全 处 理 。 这 个 算法 (代表 LMS 算法 的 一 种 推广 ) 已 经 作为 神经 网 络 的 推进 器 而 
出 现 。 第 5 章 给 出 另 一 类 分 层 神经 网 络 即 径 向 基 函 数 网 络 详细 的 数学 处 理 ， 它 们 的 构成 包括 
一 层 基 函 数 。 这 一 章 强调 在 设计 RBF 网 络 中 正则 化 理论 的 作用 。 第 6 章 描述 一 类 比较 新 的 
学 习 机 器 ， 即 支持 向 量 机 ， 它 的 理论 建立 在 第 2 章 给 出 的 统计 学 习 理论 的 材料 上 。 本 书 第 二 
部 分 以 第 7 章 结束 ， 讨 论 委员 会 机 器 ， 它 的 构成 包括 几 个 学 习 者 作为 组 成 部 分 。 在 这 一 章 我 
们 描述 总 体 平均 ， 推 举 和 分 层 混 合 专家 三 种 不 同 的 构建 委员 会 机 器 的 方法 。 

3. 无 教师 学 习 机 器 ， 由 第 8 章 至 第 12 章 组 成 。 第 8 章 把 Hebb 学 习 应 用 到 主 分 量 分 析 。 
第 9 章 把 自 组 织 学 习 的 另 一 形式 ， 也 就 是 竞争 学 习 ， 应 用 于 构造 以 自 组 织 映 射 著称 的 计算 映 
射 。 这 两 章 突出 强调 学 习 规 则 根植 于 神经 生物 学 。 第 10 章 注意 于 设计 无 监督 学 习 算 法 的 信 
息 理论 ， 强 调 它们 在 建 模 、 图 像 处 理 和 独立 分 量 分 析 中 的 应 用 。 第 11 章 描述 植 根 于 和 信息 
理论 有 密切 关系 的 统计 力学 的 自 监督 学 习 机 器 。 第 12 章 ， 介 绍 动态 规划 和 它 与 增强 式 学 习 
的 关系 。 

4. 非 线性 动态 系统 ， 由 第 13 章 至 15 章 组 成 。 第 13 章 描述 一 类 由 短期 记忆 和 分 层 前 馈 
网 络 结构 组 成 的 动态 系统 。 第 14 章 强 调 涉 及 使 用 反馈 的 非 线 性 动态 系统 所 引起 的 稳定 性 问 
题 。 该 章 还 讨论 联想 记忆 的 例子 。 第 15 章 描述 另 一 类 非 线性 动态 系统 ， 即 递归 网 络 ， 它 依 
赖 于 使 用 反馈 完成 输入 -输出 映射 。 

本 书后 记 简 要 描述 神经 网 络 在 构造 用 于 模式 识别 、 控 制 和 信和 号 处 理 的 智能 机 器 时 所 起 的 
作用 。 

本 书 的 组 织 在 神经 网 络 研究 生 课程 的 使 用 上 给 予 了 很 大 灵活 性 ， 教 师 可 根据 需要 灵活 选 
择 讲 课 内 容 。 全 书 中 总 共 包 括 15 个 基于 计算 机 的 实验 ， 其 中 有 13 个 实验 需 使 用 MATLAB。 





MATLAB 实验 的 文件 可 直接 从 以 下 网 站 下 载 : 

ftp: //ftp . mathworks . com/pub/books/haykin 

http://www . mathworks . com/books/ 

每 章 后 都 附 有 习题 。 许 多 习题 具有 挑战 性 ， 不 仅 能 检查 本 书 的 使 用 者 对 本 书 所 包含 的 资 
料 掌握 的 程度 ， 而 且 扩 充 了 这 些 资料 。 

工程 师 、 计 算 机 科学 家 和 物理 学 家 也 会 从 本 书 获 益 。 希 望 本 书 对 其 他 学 科 ， 如 心理 学 和 
神经 科学 的 研究 人 员 ， 也 会 有 所 帮助 。 


Simon Haykin 
于 Hamilton, Ontario 
1998 年 2 月 





缩写 和 符号 


artificial intelligence ”人 工 智能 
adaptive principal components extraction ” 自 适应 主 分 量 分 析 
autoregressive H E 


back propagation through time 通过 时 间 的 反 向 传播 
Boltzmann machine Boltzmann 机 

back propagation 反 向 传播 

bits per second ”每 秒 比 特 率 

bounded, one-sided saturation 有 界 ， 单 边 饱 和 
brain-state-in-a-box 盒 中 脑 状 态 

Blind source (signal) separation 育 源 (信号 ) 分 离 


classification and regression tree 分 类 和 回归 树 
correlation matrix memory ”相关 和 矩阵 记忆 
cross-validation ”交叉 确认 


decoupled extended Kalman filter 解 耦 扩展 Kalman 滤波 器 
deterministic finite-state automata ”确定 性 有 限 状态 自动 机 
digital signal processor ”数字 信和 号 处 理 器 


extended Kalman filter 扩展 Kalman 滤波 器 
expectation-maximization ”期 望 最 大 化 


finite-duration impulse response ”有限 时间 冲 击 响应 
frequency-modulated (signal) ”频率 调制 (信号) 


global extended Kalman filter 全 局 扩展 Kalman 滤波 器 
generalized cross-validation ”广义 交叉 确认 

generalized Hebbian algorithm 广义 Hebb 算法 
generalized sidelobe canceler 广义 旁 瓣 消除 器 


hierarchical mixture of expert “分 层 混 合 专家 








hidden Markov model [i Markov 模型 
hertz $R 


independent component analysis ”独立 分 量 分 析 
maximum mutual information ”最 大 互信 息 


kernel regression ” 核 回归 


least-mean-square ”最 小 均 方 

likelihood ratio 似 然 比 

long-term potentiation ”长 期 电位 (LPT) 
lone-term depression ”长 期 衰减 

likelihood ratio {SA tt 

learning vector quantization ”学 习 回 量 量化 


minor component analysis ”次 分 量 分 析 

minimum description length ”最 小 描述 长 度 

mixture of expert 混合 专家 

mean-field theory 平均 场 理论 

multiple input-multiple output ”多 输入 多 输出 
maximum likelihood ”最 大 似 然 

multilayer perceptron ”多 层 感 知 器 

model reference adaptive control ”模型 参考 自 适 应 控制 


nonlinear autoregressive moving average “ 非 线 性 自 回 归 请 动 平均 

nonlinear autoregressive with exogenous input 具有 外 部 输入 的 非 线 性 自 回归 
neuron-dynamic programming ”神经 动态 规划 

Nadaraya-Watson (estimator) “Nadaraya-Watson( 估 计 器 ) 

Nadaraya- Watson kernel regression Nadaraya- Watson 核 回归 


optimal brain damage ”最 优 脑 损伤 

optimal brain surgeon ”最 优 脑 外 科 

optical character recognition ”光学 字符 识别 
ordinary differential equation ” 常 微分 方程 


probably approximately correct ”可 能 近似 正确 
principal component analysis ” 主 分 量 分 析 
probability density function ”概率 密度 函数 
probability mass function ”概率 质量 水 数 





RBF radial basis function 1% Ja] HE PRA 
RMLP recurrent multilayer perceptron 递归 多 层 感 知 器 
RTRL real-time recurrent learning ”实时 递归 学 习 
SIMO single input-multiple output 单 输 入 多 输出 
SISO single input-single output 单 输入 单 输出 
SNR signal-to-noise ratio fA pE 
SOM self-organizing map ” 自 组 织 映射 
SRN simple recurrent network( also referred to as Elman’s recurrent network) 简单 递归 网 
络 ( 也 称 为 Elman 递归 网 络 ) 
SVD singular value decomposition ”奇异 值 分 解 
SVM support vector machine ”支持 向 量 机 
TDNN time-delay neural network ”时 延 神经 网 络 
TLFN time lagged feedforward network 时间 滞后 前 馈 网 络 
VC Vapnik-Chervononkis (dimension) | Vapnik-Chervononkis ( 维 数 ) 
VLSI very-large-scale integration ”超大 规模 集成 
XOR exclusive OR FIÈ 
重要 的 符号 
a action 动作 
a'b inner product of vectors a and b 向 量 a 和 b 的 内 积 
ab” output product of vectors a and b 向 量 a 和 jb 的 外 积 
l 
| ) binomial coefficient ”二 项 式 系数 
m 
AUB unions of A and B A ÑB 的 并 
B inverse of temperature ”温度 的 逆 
bi bias applied to neuron k ”神经 元 〖 的 偏 置 
cos(a, b) cosine of the angle between vectors a and b [=] # afi b 夹 角 的 余弦 
D depth of memory 记忆 深度 
Dri g Kullback-Leibler divergence between probability density functions f and g 概率 密度 函 
Z S Alg 之 间 的 Kullback-Leibler 散 度 
D adjoint of operator D F D 的 伴随 
E energy function 能量 函数 
E, energy of state i in statistical mechanics ”统计 力学 中 状态 i 的 能 量 
E statistical expectation operator ”统计 期 望 算 子 





average energy 平均 能 量 

error function ”误差 函数 

complimentary error function ”误差 函数 的 补 

exponential ”指数 

average squared error or sum of squared error 平均 平方 误差 或 平方 误差 和 
instantaneous value of the sum of squared error 平方 误差 和 的 瞬时 值 

total sum of error squares ”总 平方 误差 和 

free energy 自由 能 量 

probability density function of random vector X 随机 向 量 X 的 概率 密度 函数 

subset (network) with the smallest minimum empirical risk 经验 风险 最 小 值 最 小 的 
子 集 ( 网 络 ) 

Hessian matrix Hessian 矩阵 

inverse of matrix H #2/ H HJI% 

square root of — 1, also denoted by j -1 的 平方 根 ， 亦 记 作 j 

identity matrix 单位 矩阵 

Fisher’s information matrix ` Fisher 信息 矩阵 

mean-square error 平均 平方 误差 

Jacobian matrix Jacobi 矩阵 

error covariance matrix in Kalman filter theory Kalman 滤波 理论 中 的 误差 协 方差 矩 
阵 . 

square root of matrix K # K 的 平方 根 

transpose of square root of matrix K Æ K 的 平方 根 的 转 置 

Boltzmann constant Boltzmann 常数 

logarithm ”对 数 

log-likelihood function of weight vector w PURE w 的 对 数 似 然 函数 
log-likelihood function of weight vector w based on a single example 单 样本 的 权 值 向 
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第 1 章 = 


1.1 什么 是 神经 网 络 


自从 认识 到 人 脑 的 计算 与 传统 的 数字 计算 机 相 比 是 完全 不 同 的 方式 开始 ， 关 于 人 工 神经 
网 络 (一 般 称 为 “神经 网 络 ”) 的 研究 工作 就 开始 了 。 人 脑 是 一 个 高 度 复杂 的 、 非 线性 的 和 并 
行 的 计算 机 器 (信息 处 理 系 统 )。 人 脑 能 够 组 织 它 的 组 成 成 分 ， 即 神经 元 ， 以 比 今天 已 有 的 最 
快 的 计算 机 还 要 快 许多 倍 的 速度 进行 特定 的 计算 (如 模式 识别 、 感 知 和 运动 神经 控制 )。 例 
如 , 考虑 人 类 视觉 ， 这 是 一 个 信息 处 理 的 任务 (Mar,，1982; Levine, 1985; Churchland and 
Sejnowski,1992)。 视 觉 系 统 功能 是 为 我 们 提供 一 个 关于 周围 环境 的 表示 ， 并 且 更 重要 的 是 提 
供 我 们 和 环境 交互 所 需 的 信息 。 具 体 讲 ， 完 成 一 个 感知 识别 任务 (例如 识别 一 张 被 苦 入 陌生 
场景 的 熟悉 的 脸 ) 人 脑 大 概 需要 100 ~ 200 毫秒 ， 而 一 台 传 统 的 计算 机 却 要 花费 几 天 时 间 才 能 
完成 一 个 相对 简单 得 多 的 任务 。 

再 举 一 个 例子 : 考虑 一 只 蝙蝠 的 声 纳 。 声 纳 就 是 一 个 活动 回声 定位 系统 。 除 了 提供 目标 
(例如 飞行 的 昆虫 ) 有 多 远 的 信息 外 ， 蝙 蝠 的 声 纳 可 以 搜集 目标 的 相对 速度 、 目 标 大 小 、 目 标 不 
同 特征 的 大 小 以 及 它 的 方位 角 和 仰角 的 信息 (Suga,1990a,b)。 所 有 信息 都 从 目标 的 回声 中 提取 ， 
而 所 有 需要 的 复杂 神经 计算 只 在 李子 般 大 小 的 脑 中 完成 。 事 实 上 ， 一 只 回声 定位 的 蝙蝠 可 以 灵 
巧 地 以 很 高 的 成 功率 追逐 和 捕捉 目标 ， 这 一 点 可 以 让 雷达 或 声 纳 工程 师 们 自 吧 弗 如 。 

那么 ， 人 脑 或 蝙蝠 的 脑 是 如 何 做 到 这 一 点 的 呢 ? 脑 一 出 生 就 有 精巧 的 构造 和 具有 通过 我 
们 通常 称 为 “经 验 " 而 建立 它 自 己 规则 的 能 力 。 确 实 ， 经 验 是 经 时 间 积 累 的 ， 人 脑 在 出 生 后 头 
两 年 内 发 生 了 最 戏剧 性 的 发 展 ( 即 硬 连接 ) ， 但 是 发 展 将 超越 这 个 阶段 并 继续 进行 。 

一 个 “发 展 中 ”的 神经 元 是 与 可 塑 的 人 脑 同 义 的 。 可 塑性 允许 一 个 发 展 中 的 神经 系统 适应 
它 的 周边 环境 。 可 塑性 似乎 是 人 脑 中 作为 信息 处 理 单元 的 神经 元 的 功能 的 关键 ， 同 样 ， 它 在 
人 工 神 经 元 组 成 的 神经 网 络 中 亦 是 如 此 。 最 普通 形式 的 神经 网 络 就 是 对 人 脑 完成 特定 任务 或 
感 兴趣 功能 的 方法 进行 建 模 的 机 器 ; 网 络 一 般 用 电子 器 件 实现 或 者 用 软件 在 数字 计算 机 上 模 
拟 。 在 本 书 中 ， 我们 主要 介绍 重要 的 神经 网 络 ， 这 种 网 络 通 过 学 习 过 程 来 实现 有 用 的 计算 。 
为 了 获得 好 的 结果 ， 神 经 网 络 使 用 一 个 很 庞大 的 简单 计算 单元 间 的 相互 连接 ， 这 些 简 单 计 算 单 
元 称 为 “神经 元 "或者" 处理 单 元 ”"。 据 此 我 们 给 出 将 神经 网 络 看 作 一 种 自 适应 机 器 的 定义 中 ， 

一 个 神经 网 络 是 一 个 由 简单 处 理 元 构成 的 规模 宏大 的 并 行 分 布 式 处 理 器 。 天 然 具 有 存储 
经 验 知 识 和 使 之 可 用 的 特性 。 神 经 网 络 在 两 个 方面 与 人 脑 相 似 : 

1. 神经 网 络 获取 的 知识 是 从 外 界 环境 中 学 习 得 来 的 。 

2. 互 连 神 经 元 的 连接 强度 ， 即 突 触 权 值 ， 用 于 储存 获取 的 知识 。 

用 于 完成 学 习 过 程 的 程序 称 为 学 习 算 法 ， 其 功能 是 以 有 序 的 方式 改变 网 络 的 突 触 权 值 以 
获得 想 要 的 设计 目标 。 

突 触 权 值 修改 提供 神经 网 络 设计 的 传统 方法 。 这 种 方法 和 线性 自 适应 滤波 器 理论 很 接 
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近 。 滤 波 器 理论 已 经 很 好 地 建立 起 来 并 成 功 应 用 在 很 多 领域 ( Widrow and Stearns, 1985; Haykin, 
1996)。 但 是 神经 网 络 修改 它 自身 的 拓扑 结构 亦 是 可 能 的 ， 这 也 和 人 脑 的 神经 元 会 死亡 和 新 
的 突 触 连接 会 生长 的 情况 相 适 应 。 

神经 网 络 在 文献 中 也 称 为 神经 计算 机 、 连 接 主 义 网 络 、 并 行 分 布 式 处 理 器 等 。 本 书 一 律 
使 用 “神经 网 络 " 这 个 术语 ,偶尔 也 用 “神经 计算 机 ”或 “连接 主义 网 络 ”。 


神经 网 络 的 优点 


神经 网 络 的 计算 能 力 很 明显 有 以 下 两 点 : (1) 大 规模 并 行 分 布 式 结构 。(2) 神 经 网 络 学 习 
能 力 以 及 由 此 而 来 的 泛 化 能 力 。 泛 化 是 指 神经 网 络 对 不 在 训练 (学 习 ) 集 中 的 数据 可 以 产生 合 
理 的 输出 。 这 两 种 信息 处 理 能 力 让 神经 网 络 可 以 解决 一 些 当前 还 不 能 处 理 的 复杂 的 (大 型 ) 问 
题 。 但 是 在 实践 中 ， 神 经 网 络 不 能 单独 做 出 解答 ， 它 们 需要 被 整合 在 一 个 协调 一 致 的 系统 工 
程 方法 中 。 有 具体 讲 ， 一 个 复杂 问题 往往 被 分 解 成 若干 相对 简单 的 任务 ， 而 神经 网 络 处 理 与 其 
能 力 相 符 的 子 任务 。 但 是 ,我 们 在 建立 一 个 可 以 模拟 人 脑 的 计算 机 结构 (如 果 可 能 ) 之 前 还 有 
很 长 路 要 走 ， 认 识 这 一 点 是 很 重要 的 。 

神经 网 络 具 有 下 列 性 质 和 能 力 : 

1. 非 线性 。 一 个 人 工 神经 元 可 以 是 线性 或 者 是 非 线性 的 。 一 个 由 非 线性 神经 元 互联 而 成 
的 神经 网 络 自身 是 非 线性 的 ， 并 且 非 线性 是 一 种 分 布 于 整个 网 络 中 的 特殊 性 质 。 非 线性 是 一 个 
很 重要 的 性 质 ， 特 别 当 如 果 产 生 输 入 信号 (如 语音 信号 ) 内 部 的 物理 机 制 是 天 生 非 线性 时 。 

2. 输入 输出 映射 。 有 监督 学 习 或 有 教师 学 习 是 一 个 学 习 的 流行 范例 ， 涉 及 使 用 带 标号 
的 训练 样本 或 任务 例子 对 神经 网 络 的 突 触 权 值 进行 修改 。 每 个 样本 由 一 个 惟一 的 输入 信号 和 
相应 期 望 响应 组 成 。 从 一 个 训练 集中 随机 选取 一 个 样本 给 网 络 ， 网 络 就 调整 它 的 突 触 权 值 ( 自 
由 参数 )， 以 最 小 化 期 望 响应 和 由 输入 信号 以 适当 的 统计 准则 产生 的 实际 响应 之 间 的 差别 。 使 
用 训练 集中 的 很 多 例子 重复 神经 网 络 的 训练 ， 直 到 网 络 到 达 没 有 显著 的 突 触 权 值 修正 的 稳定 状 
态 为 止 。 先 前 用 过 的 例子 可 能 还 要 在 训练 期 间 以 不 同 顺序 重复 使 用 。 因 此 对 当前 问题 网 络 通过 
建立 输入 输出 映射 从 例子 中 进行 学 习 。 这 样 一 个 方法 使 人 想起 了 无 参数 统计 推断 的 研究 ， 它 是 
非 模型 估计 的 统计 处 理 的 一 个 分 支 ， 或 者 从 生物 学 角度 看 ， 称 为 tabula rasa 学 习 (Geman et al., 
1992)。 这 儿 使 用 " 非 参数 "表示 的 一 个 事实 是 , 没有 对 输入 数据 的 统计 模型 作 任何 先 验 假设 。 比 
如 ， 考 虑 一 个 模式 分 类 任务 ， 这 里 的 要 求 是 把 代表 具体 物体 或 事件 的 输入 信和 号 分 类 到 几 个 预先 
分 好 的 类 中 去 。 在 这 个 问题 的 非 参 数 方法 中 ,要求 利用 例子 集 “估计 "输入 信号 空间 中 模式 分 类 
任务 的 任意 判决 边界 ， 并 且 不 使 用 概率 分 布 模型 。 有 监督 学 习 范 例 隐 含 了 一 个 类 似 的 观点 ， 这 
提示 神经 网 络 的 输入 输出 映射 和 非 参数 统计 推断 之 间 的 一 个 相近 的 类 比 。 

3. 适应 性 。 神 经 网 络 戏 人 了 一 个 调整 自身 突 触 权 值 以 适应 外 界 变 化 的 能 力 。 特 别 是 ， 
一 个 在 特定 运行 环境 下 接受 训练 的 神经 网 络 ， 对 环境 条 件 不 大 的 变化 可 以 容易 进行 重新 训 
练 。 而 且 ， 当 它 在 一 个 时 变 环境 ( 即 它 的 统计 特性 随时 间 变 化 ) 中 运行 时 ， 网 络 突 触 权 值 就 可 
以 设计 成 随时 间 变 化 。 用 于 模式 识别 、 信 和 号 处 理 和 控制 的 神经 网 络 与 它 的 自 适 应 能 力 耦 合 ， 
就 可 以 变 成 能 进行 自 适应 模式 识别 、 自 适应 信号 处 理 和 自 适 应 控制 的 有 效 工 具 。 作 为 一 个 一 
般 规则 ， 在 保证 系统 保持 稳定 时 一 个 系统 的 自 适 应 性 越 好 ， 当 要 求 在 一 个 时 变 环境 下 运行 时 
它 的 性 能 就 越 具 鲁 棒 性 。 但 是 ， 需 要 强调 的 是 ， 自 适应 性 不 一 定 导致 鲁 棒 人 性 ， 实 际 可 能 相 
反 。 比 如 ,一 个 暂 态 自 适应 系统 可 能 变化 过 快 ， 以 至 对 寄生 干扰 有 反应 ,这 将 引起 系统 性 能 
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的 急剧 恶化 。 为 最 大 限度 实现 自 适 应 性 ， 系 统 的 主要 时 间 常 数 应 该 长 到 可 以 忽略 寄生 干扰 ， 
而 短 到 可 以 反应 环境 的 重要 变化 。 这 是 一 个 稳定 性 - 可 塑性 困境 (Grossherg,1988b)。 

4. 证 据 响 应 。 在 模式 识别 的 问题 中 ， 神 经 网 络 可 以 设计 成 既 提 供 不 限 于 选择 哪 一 个 特 
定 模式 的 信息 ， 也 提供 决策 的 置信 度 的 信息 。 后 者 可 以 用 来 拒 判 那些 出 现 的 过 于 模糊 的 模 
式 。 有 这 些 信息 ， 网 络 的 分 类 性 能 就 会 改善 。 

5. 背 录 的 信息 。 神 经 网 络 的 特定 结构 和 激发 状态 代表 知识 。 网 络 中 每 一 个 神经 元 潜在 地 都 受 
网 络 中 所 有 其 他 神经 元 全 局 活动 的 影响 。 因 此 ， 背 景 信息 自然 由 一 个 神经 网 络 处 理 。 

6. 容错 性 。 一 个 以 硬件 形式 实现 后 的 神经 网 络 有 天 生 容 错 的 潜质 ， 或 者 鲁 棒 计 算 的 能 
力 ， 意 即 它 的 性 能 在 不 利 运行 条 件 下 逐渐 下 降 。 比 如 ， 一 个 神经 元 或 它 的 连接 损坏 了 ， 存 储 
模式 的 回忆 在 质量 上 被 削弱 。 但 是 ， 由 于 网 络 信息 存储 的 分 布 特性 ， 在 网 络 的 总 体 响应 严重 
晋 化 之 前 这 种 损坏 是 分 散 的 。 因 此 ， 原 则 上 ， 一 个 神经 网 络 的 性 能 显示 了 一 个 缓慢 恶化 而 不 
是 灾难 性 的 失败 。 有 一 些 关 于 和 鲁 棒 性 计算 的 经 验证 据 ， 但 通常 它 是 不 可 控 的 。 为 了 确保 网 络 
事实 上 的 容错 性 ， 有 必要 在 设计 训练 网 络 的 算法 时 采用 正确 的 度量 (Kerlirzin and Vallet, 1993), 

7.VLSI 实现 。 神 经 网 络 的 大 规模 并 行 性 使 它 有 具有 快速 处 理 某 些 任务 的 潜在 能 力 。 这 一 
特性 使 得 神经 网 络 很 适合 用 超大 规模 集成 (very-large-scale-integrated, VLSI) 技 术 实 现 。VISI 的 
一 个 特殊 优点 是 提供 一 个 以 高 度 分 层 的 方式 捕捉 真实 复杂 性 行为 的 方法 。 

8. 分 析 和 设计 的 一 致 性 。 基 本 上 ， 神 经 网 络 作为 信息 处 理 器 具有 通用 性 。 我 们 这 样 说 
是 在 这 样 的 意义 下 ， 即 涉及 神经 网 络 的 应 用 的 所 有 领域 都 使 用 同样 记号 。 这 种 特征 以 不 同 的 
方式 表现 出 来 : 

。 神经 元 : 不 管 形式 如 何 ， 在 所 有 的 神经 网 络 中 都 代表 一 个 相同 成 分 。 

。 这 种 共性 使 得 在 不 同 应 用 中 的 神经 网 络 共享 相同 的 理论 和 学 习 算 法 成 为 可 能 。 

。 模块 化 网 络 可 以 用 模块 的 无 颖 集成 来 实现 。 

9. 神经 生物 类 比 。 神 经 网 络 的 设计 是 由 对 人 脑 的 类 比 引 发 的 ， 人 脑 是 一 个 容错 的 并 行 
处 理 的 活生生 的 例子 ， 说 明 这 种 处 理 不 光 在 物理 上 可 实现 的 而 且 还 是 快速 高 效 的 。 神 经 生物 
学 家 将 (人 工 ) 神 经 网 络 看 作 是 一 个 解释 神经 生物 现象 的 研究 工具 。 另 一 方面 工程师 注意 神 
经 生物 学 是 将 其 作为 解决 复杂 问题 的 新 思路 ， 这 些 问 题 比 基 于 常规 的 硬件 线路 设计 技术 所 能 
解决 的 问题 更 复杂 。 下 面 两 个 例子 说 明了 这 两 种 观点 : 

。 在 Anastasio(1993) 中 ， 比 较 了 前 庭 视觉 反射 的 线性 系统 模型 和 基于 在 1.6 节 描 述 及 第 

15 章 里 详细 描述 的 递归 网 络 的 神经 网 络 模型 。 前 庭 祝 觉 反 射 (vestibulo-ocular reflex, 
VOR) 是 眼球 运动 系统 的 一 部 分 ， 其 作用 是 让 眼球 向 与 头 转动 方向 相反 的 方向 运动 ， 
以 维持 视觉 (视网膜 ) 图 像 的 稳定 性 。VOR 由 前 庭 核酸 的 前 端 神 经 元 调节 ， 前 端 神经 
元 从 前 庭 感 知 神经 元 中 接受 头 部 旋转 信息 并 处 理 ， 将 结果 告知 眼球 肌肉 的 动作 神经 
元 。 输 入 ( 头 部 旋转 信息 ) 和 输出 (眼球 旋转 ) 可 以 精确 确定 ， 因 此 VOR 很 适合 用 来 建 
模 。 另 外 ， 它 是 比较 简单 的 反射 作用 ， 并 且 其 组 成 神经 元 的 神经 生理 学 的 内 容 已 经 
被 很 好 阐述 。 在 三 种 神经 类 型 中 ， 前 端 神经 元 (反射 内 层 神经 元 ) 在 前 庭 神经 核酸 中 
是 最 复杂 也 是 最 引 人 注 意 的 。VOR 以 前 已 经 用 集 块 线性 系统 描述 器 和 控制 理论 模型 
化 了 。 这 些 模型 对 解释 VOR 的 整体 性 质 有 一 些 作用 ， 但 是 对 其 组 成 神经 元 特性 的 了 
解 却 用 处 不 大 。 这 种 情况 通过 神经 网 络 的 模型 已 经 被 大 大 改善 了 。VOR 的 递归 网 络 
模型 (使 用 第 15 章 描述 的 实时 递归 学 习 算 法 设计 ) 能 重 现 和 解释 调节 VOR 的 神经 元 
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的 许多 特性 ， 包 括 处 理 信号 时 的 静态 、 动 态 、 非 线性 和 分 布 式 特性 ， 特 别 是 前 庭 核 
酸 神经 元 (Anastasio,1993) 。 

。 视网膜 不 同 于 人 脑 的 其 他 任何 部 分 ， 是 我 们 开始 将 外 部 环境 的 物理 图 像 投 射 到 一 行 
接受 器 上 形成 的 视觉 表示 利 第 一 个 神经 图 像 结合 的 地 方 。 它 是 眼球 后 部 的 神经 组 织 
注 层 ， 其 功能 是 将 光学 图 像 转换 成 神经 图 像 并 沿 光 神经 传输 给 大 量 的 视觉 中 枢 以 便 
进一步 处 理 。 这 是 一 个 复杂 的 工作 ， 可 以 从 视网膜 的 突 触 组 织 得 到 证 明 。 在 兰 椎 动 
物 的 视网膜 中 ， 光 图 像 转 化 成 神经 图 像 的 过 程 由 三 个 阶段 组 成 (Steding, 1990) : 

(i 受 体 神 经 元 层 的 图 像 传导 。 

(让 结果 信号 (对 光 刺 激 的 反应 产生 ) 由 化 学 性 突 触 传输 给 一 层 双 极 细胞 。 

《过 ) 同 样 ， 由 化 学 性 突 触 把 结果 信号 传 给 称 为 神经 节 细 胞 的 输出 神经 元 。 

在 两 个 突 触 阶段 ( 即 从 受 体 到 双 极 细胞 和 从 双 极 细胞 到 神经 节 细 胞 ) ， 有 专门 侧 向 连 
接 的 分 别称 为 水 平 细胞 的 神经 元 和 无 长 突 细 胞 的 神经 元 。 这 些 神经 元 的 工作 是 修改 
突 触 层 之 间 的 传输 。 另 外 有 被 叫做 中 间 网 状 细胞 的 离心 元 素 ; 它们 的 工作 是 将 信和 号 
从 内 部 突 触 层 传 到 外 部 突 触 层 。 一 些 研究 人 员 已 经 建立 了 模拟 视网膜 结构 的 电子 芯 
H (Mahowald and Mead, 1989; Boahen and Ardreou, 1992; Boahen, 1996) 。 这 些 电 子 芯片 称 
为 神经 形态 集成 电路 ， 这 个 术语 由 Mead(1989) 所 创造 。 一 个 神经 形态 的 图 像 传感器 
由 一 排 感光 器 与 每 个 图 形 元 素 ( 像 素 ) 的 模拟 回路 结合 而 成 。 它 能 模拟 视网膜 适应 局 
部 的 亮度 变化 、 检 测 边缘 和 检测 运动 。 神 经 生物 学 模拟 ， 例 如 神经 形态 集成 电路 ， 
有 男 一 个 重要 的 应 用 : 它 提供 一 种 希望 和 信念 ， 并 在 一 定 程度 上 提供 一 种 存在 性 证 
明 ， 即 对 神经 生物 结构 的 物理 上 的 了 解 对 电子 学 工艺 和 超大 规模 集成 电路 技术 有 多 
方面 的 影响 。 

有 了 神经 生物 学 的 启示 ， 我 们 对 人 脑 及 其 组 织 的 结构 层次 作 简 要 的 考察 看 来 是 合适 的 。 


1.2 人 脑 


人 的 神经 系统 可 看 作 3 阶段 系统 ， 如 同 图 1-1 所 描绘 的 框图 。 系 统 的 中 央 是 人 脑 ， 由 神 
经 网 络 表 示 ， 它 连续 地 接收 信息 ， 感 知 它 并 做 出 适当 的 决定 。 图 中 有 两 组 箭头 ， 从 左 到 右 的 
箭头 表示 携带 信息 的 信和 号 通过 系统 向 前 传输 ， 从 右 到 左 的 箭头 表示 系统 中 的 反馈 。 感 受 器 把 
人 体 或 外 界 环境 的 刺激 转换 成 电 冲 击 ， 对 神经 网 络 ( 大 脑 ) 传 送信 息 。 神 经 网 络 的 效应 器 转换 
神经 网 络 产生 的 电 冲 击 为 可 识别 的 响应 作为 系统 输出 。 

由 于 Ramény Ca 这 (1911) 的 开创 性 工作 (他 引入 神经 元 作为 人 脑 结 构成 分 的 思想 ) ， 理 解 
人 脑 的 努力 已 经 简单 多 了 。 通 常 ， 神 经 元 比 硅 逻 辑 门 要 慢 5 到 6 个 数量 级 ， 硅 逻辑 门 中 的 事 
件 发 生 在 纳 秒 (10-"s) 级 ， 而 在 神经 中 的 事件 发 生 在 毫秒 (10-3s) 级 。 但 是 人 脑 由 运行 速度 相 
对 较 慢 的 神经 元 构成 ， 神 经 元 (神经 细胞 ) 数 目 确 实 惊人 ， 而 且 它 们 之 间 具 有 大 量 的 互联 。 佑 
计 人 的 皮质 有 大 约 100 亿 神 经 元 和 大 约 6 亿 兆 突 触 或 连接 (Shepherd and Koch,1990)。 脑 中 的 网 


络 是 高 效 结构 。 特 别 是 ， 脑 的 能 量 效率 
每 秒 人 每 个 操作 大 约 为 0“ 焦耳， 而今 yi 一" 感受 器 | “| 神经 网 络 | | 效应 器 mt 
天 所 用 的 最 好 计算 机 的 相应 值 是 每 秒 每 

个 操作 大 约 10 82 (Faggin, 1991), 


突 触 是 调节 神经 元 之 间 相 互 作用 的 图 1-1 神经 系统 的 框图 表示 
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基本 结构 和 功能 单位 。 最 普通 的 一 类 突 触 是 化 学 突 触 ， 它 运行 如 下 。 前 突 触 过 程 释放 发 送 器 物 
质 ， 扩 散 到 神经 元 之 间 的 突 触 连接 ， 然 后 作用 于 后 突 触 过 程 。 这 样 突 触 就 完成 了 突 触 前 端的 电 
信和 号 和 化 学 信号 的 转换 ， 然 后 返回 突 触 后 端 电 信号 (Shepherd and Koch,1990)。 用 电学 术语 ， 这 
样 的 元 素 称 为 非 互 逆 的 两 端口 设备 。 sateen 仪 假设 突 触 是 一 个 简单 的 连 
接 ， 能 加 载 兴 奋 或 抑制 ， 但 不 同时 作用 在 接受 神经 

我 们 曾 提 到 过 ， 可 雪 性 多 许 发 展 神经 系统 以 适应 周边 环境 (Beernont， 1990; Churchland 
and Sejnowski, 1992) 。 在 成 年 人 的 脑 中 ， 可 塑性 可 以 解释 两 个 机 能 : 创建 神经 元 间 的 新 连接 
和 修改 连接 。 轴 突 ( 即 传导 线路 ) 和 树 突 ( 即 接受 区 域 ) 组 成 两 种 细胞 长 纤维 ， 它 们 在 形态 上 互 
相 区 别 ; 轴 突 有 光华 的 表面 ， 较 少 的 分 支 ， 比 较 长 ， 而 树 突 正 相反 (之 所 以 这 样 称呼 是 因为 
它 和 树 相似 )， 它 有 不 规则 的 表面 和 更 多 的 分 支 (Freeman,1975)。 A 
状 和 大 小 的 神经 元 。 图 1-2 是 一 种 锥 形 细胞 ， 它 在 脑 皮层 中 是 常见 的 。 和 其 他 许多 神经 
样 ， 它 从 树 突 刺 接收 大 部 分 输入 信号 ; 可 以 从 图 1-2 中 看 到 树 突 片段 细节 。 维 形 细胞 可 以 有 
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图 1-2 锥 形 细胞 
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一 万 个 或 更 多 的 突 触 与 其 他 细胞 连接 ， 它 可 以 投射 到 数 以 千 计 的 目标 细胞 。 
大 多 数 神经 元 把 它们 的 输出 转化 成 一 系列 简短 的 电压 脉冲 编码 。 这 些 脉冲 ， 一 般 称 为 动 
作 电 位 或 冲击 ， 产 生 于 神经 元 细胞 体 或 其 附近 并 以 恒定 的 电压 和 振幅 穿越 个 体 神经 元 。 神 经 
元 间 使 用 动作 电位 通信 是 由 轴 突 的 物理 性 质 决定 的 。 轴 突 很 
长 很 细 ， 有 很 高 的 电阻 和 非常 大 的 电容 ,这 二 者 分 布 于 轴 突 
| 区 域 间 电 路 | 









中 。 因 此 可 以 用 RC 传输 线路 来 建 模 ， 用 “线路 方程 ”这 个 术 
语 来 描述 轴 突 中 的 信号 传播 。 对 传播 机 制 的 分 析 揭 示 电 压 在 
传输 中 随 距离 指数 豪 减 ， 在 到 达 男 一 端 时 会 变 得 很 小 。 动 作 
电位 提供 了 克服 这 个 问题 的 方法 (Anderson,1995)。 

在 人 脑 中 ， 有 大 小 解剖 组 织 之 分 ， 机 能 也 有 高 下 之 别 。 
图 1-3 显示 脑 组 织 交 织 水 平 的 层次 结构 ， 这 已 经 在 广泛 的 关 
于 脑 局 部 区 域 的 分 析 工 作 中 显现 出 来 (Shepherd and Koch, 
1990; Churchland and Sejnowski, 1992)。 突 触 表示 最 基本 的 层 
次 ， 其 活动 依赖 于 分 子 和 离子 。 其 后 的 层次 有 神经 微 电 路 、 
树 突 树 和 最 后 的 神经 元 。 神 经 微 电 路 指 突 触 集成 ， 组 织 成 可 
以 产生 感 兴趣 的 功能 操作 的 连接 模式 。 它 就 像 一 个 由 晶体 管 
集成 的 硅 片 ， 最 小 的 尺寸 用 微米 (pm) 度 量 ， 最 快 的 操作 速度 
用 毫秒 度量 ， 神 经 微 电 路 被 组 织 成 属于 神经 元 个 体 的 树 突 树 
的 树 突 子 单 元 。 整 个 神经 元 大 约 为 100pm 大 小 ,包含 几 个 树 
突 子 单元 。 局 部 电路 (大 约 Imm 大 小 ) 处 在 其 次 的 复杂 性 水 
平 ， 由 具有 相似 或 不 同性 质 的 神经 元 组 成 ， 这 些 神 经 元 集成 图 1-3 脑 组 织 的 分 层 结构 
完成 脑 局 部 区 域 的 特征 操作 。 再 次 为 区 域 间 电路 ， 由 通路 、 
柱子 和 局 部 解剖 图 组 成 ， 牵 涉 脑 中 不 同 部 分 的 多 个 区 域 。 

局 部 解剖 图 被 组 织 成 响应 输入 感知 器 信息 。 它 们 经 常 被 组 织 成 片 束 状 ， 如 同 在 上 堪 中 一 
样 。 上 丘 中 视觉 、 听 觉 和 人 体 触 觉 区 以 层 邻 接 的 方式 放置 ， 使 得 空间 中 相应 点 的 刺激 处 于 各 
层 的 下 面 或 上 面 。 图 1-4 表示 由 Brodmann( Brodal, 1981) 做 出 的 大 脑 皮质 的 细胞 结构 图 。 它 清 
楚 表 明 不 同 的 感觉 信息 (运动 、 触 觉 、 视 觉 、 听 觉 等 ) 被 有 序 地 映射 到 大 脑 皮 层 的 相应 位 置 。 
在 复杂 性 的 最 后 一 级 ， 局 部 解剖 图 和 其 他 的 区 域 间 电路 成 为 中 央 神 经 系统 传递 特定 行为 的 媒 
介 。 

认识 到 在 这 里 描绘 的 结构 分 层 组 织 是 人 脑 的 独 有 特征 非常 重要 。 我 们 在 数字 计算 机 中 找 
不 到 这 种 结构 ， 在 人 工 神经 网 络 中 也 无 法 近似 地 重 构 它 们 。 但 是 ， 我 们 仍 在 向 图 1-3 中 描述 
的 类 似 的 分 级 计算 的 层 状 结构 缓慢 推进 。 用 以 构造 的 神经 网 络 的 人 工 神经 元 和 人 脑 中 的 神经 
元 相 比 确实 比较 初级 。 我 们 目前 能 设计 的 网 络 和 人 脑 中 初级 的 局 部 电路 和 区 域 间 电路 相当 。 
但 是 ， 真 正 令 人 满意 的 是 过 去 20 年 间 我 们 在 许多 前 沿 有 了 显著 进步 。 以 神经 生物 类 比 作为 
灵感 的 源泉 ， 加 上 我 们 具有 的 理论 和 技术 工具 的 这 些 财 富 ， 下 一 个 十 年 我 们 对 人 工 网 络 的 理 
解 一 定 会 更 加 深入。 

本 书 的 主要 兴趣 限于 从 工程 学 角度 研究 人 工 神经 网 ” 。 我 们 从 描述 人 工 神经 元 模型 开始 
研究 神经 网 ， 神 经 元 模型 是 本 书后 面 各 章 讨论 神经 网 络 的 基础 。 
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不 同 区 域 由 它们 的 层 厚 度 及 其 内 部 细胞 类 型 标示 。 一 些 最 重要 的 特殊 区 域 如 下 
运动 皮质 : 运动 区 ， 区 域 4; 前 运动 区 ， 区 域 6; 前 端 眼球 区 ， 区域 8。 人 体 和 触觉 
皮质 : 区 域 3，1，2。 视 党 皮质 : K 17, 18, 19, WRH: 区 域 44，42( 搞 自 
A.Brodal, 1981; 经 Oxford University Press 人 允许) 

图 1-4 大 脑 皮质 细胞 结构 图 


1.3 神经 元 模型 


神经 元 是 神经 网 络 操作 的 基本 信息 处 理 单位 。 方 框图 1-5 显示 神经 元 的 模型 ， 它 是 (人 
工 ) 神 经 网 络 的 设计 基础 。 我 们 在 这 里 给 出 神经 元 模型 的 三 种 基本 元 素 : 

1. 突 触 或 连接 链 ， 每 一 个 都 由 其 权 值 或 者 强度 作为 特征 。 特 别 是 ， 在 连 到 神经 元 的 
突 触 上 的 输入 信号 x, WRA k 的 突 触 权重 ws。 注 意 突 触 权 值 wi 的 下 标的 写法 很 重要 。 第 
一 个 下 标 指 查询 神经 元 ， 第 二 个 下 标 指 权 值 所 在 的 突 触 的 输入 端 。 和 人 脑 中 的 突 触 不 一 样 ， 
人 工 神经 元 的 突 触 权 值 有 一 个 范围 ， 可 以 取 正 值 也 可 以 取 负 值 。 

2. 加 法 器 ， 用 于 求 输入 信号 被 神经 元 的 相应 突 触 加 权 的 和 。 这 个 操作 构成 一 个 线性 组 
eS. BE 

3. ME BA, HRR Hel HA TH h R 
幅 。 激 活 函 数 也 称 为 压制 函数 ， 由 于 它 将 
输出 信和 号 压制 (限制 ) 到 允许 范围 之 内 的 一 
定 值 。 通 常 ， 一 个 神经 元 输出 的 正常 幅度 。 输入 
范围 可 写成 单位 闭 区 间 [0,1] 或 者 另 一 种 “信号 
区 间 [ -1,+1]。 

图 1-5 的 神经 元 模型 也 包括 一 个 外 部 
偏 置 ， 记 为 b,。 偏 置 的 作用 是 根据 其 为 正 awn 
或 为 负 ， 相 应 地 增加 或 降低 激活 函数 的 网 - 
络 输入 。 





图 1-5 神经 元 的 非 线性 模型 




















用 数学 术语 ， 我 们 可 以 用 如 下 一 对 方程 描述 一 个 神经 元 : 


u, = Sl wn, (1.1) 
yx = olu + bi) (1.2) 
其 中 xx x, EMAR S, Was, wast, Wm EMA k 的 突 触 权 值 ，w 是 输入 信 
号 的 线性 组 合 器 的 输出 , 偏 置 为 6 ,激活 函数 为 p(:') ,yi 是 神经 元 输出 信号 。 偏 置 b 的 
作用 是 对 图 1-5 模型 中 的 线性 组 合 器 的 输出 u 
HE at RHR, UP AA: 
V, = u, + b; (1.3) 
特别 地 ， 根 据 偏 置 b; 取 正 或 取 负 ， 神 经 元 有 的 
诱导 局 部 域 或 激活 电位 内 和 线性 组 合 器 输出 u 
的 关系 如 图 1-6 所 示 ; 以 后 我 们 将 使 用 “诱导 局 
部 域 ” 这 个 术语 。 注 意 到 由 于 这 个 仿 射 变换 的 作 
H, vn Su, 的 图 形 不 再 经 过 原点 。 
WE b, EA THAT kh 的 外 部 参数 。 我 们 
可 以 像 在 方程 (1.2) 中 一 样 考虑 它 。 同 样 ， 我 们 
可 以 结合 方程 (1.1) 和 (1.3) 得 到 如 下 公式 : 
» = X wys (1.4) 图 1-6 偏 置 产生 的 仿 射 变换 
名 GER u, <0 Mf n =b) 







诱导 局 部 域 内 偏 置 b.>0 
b,=0 


b, <0 





线性 组 合 器 输出 u 






x, = lv) (1.5) 

在 (1.4) 中 ， 我 们 加 上 一 个 新 的 突 触 ， wy =b, (ME) 
其 输入 是 转 定 输入 xzo=+19 

xo =+1 (1.6) no 
权 值 是 

Wig = b; (1.7) X0 
我 们 因此 得 到 了 神经 元 的 新 模型 图 mA mi 
1-7。 在 这 个 图 中 ， 偏 置 的 作用 是 做 两 
件 事 : (1) 添 加 新 的 固定 输入 + 1; (2) 
添加 新 的 等 于 偏 置 5 的 突 触 权 值 。 虽 xmo 
然 形 式 上 图 1-5 和 图 1-7 的 模型 不 相 突 触 权 值 ( 包括 偏 置 ) 
同 ,但 在 数学 上 它们 是 等 价 的 。 图 1-7 神经 元 的 另 一 个 非 线性 模型 
激活 函数 的 类 型 


激活 函数 ， 记 为 p(v)， 通 过 诱导 局 部 域 v 定义 神经 元 输出 。 这 里 我 们 给 出 三 种 基本 的 

激活 函数 : 
1. 阔 值 函数 。 这 种 激活 函数 如 图 1- 8a 所 示 ， 可 写 为 : 
olv) = {, 如 果 v > 0 


0 如 果 v < 0 (1.8) 
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在 工程 文献 中 ， 这 种 函数 一 般 称 为 Heaviside 函数 。 相 应 地 ， 在 神经 元 k AK A (eK, 
其 输出 可 表示 为 








p mR vw = 0 (1.9) 
“= lo mB», <0 
其 中 Vk 是 神经 元 的 诱导 局 部 域 ， Bp 1.2 | | 
m 1 p(v) 
n = > wyx; + by (1.10) 0.8 
这 样 一 个 神经 元 在 文献 中 称 为 MeCulloch- 0% 
Pitts 模型 ， 以 纪念 McCulloch and Pitts 95 
(1943) 的 开拓 性 工作 。 在 模型 中 ， 如 果 神 TTT 
经 元 的 诱导 局 部 域 非 负 ， 则 输出 为 1, 否 ER ORNS? 
则 为 0。 这 描述 了 McCulloch-Pitts 模型 的 皆 a) 
有 或 者 缘 无 (al-or-none) 的 特性 。 2 
2. 分 段 线 性 函数 。 分 段 线 性 函数 由 1 
图 1-8b 所 示 ， 我 们 有 0.8 
1 0.6 
l, Yeats 0.4 
1 1 0.2 
gv) =u, + 万 >2> > (1.11) 0 
-2 -15 -1 -05 0 0.5 1 1.5 2 
1 v 
0, vs-5 
2 b 
其 中 ,在 运算 的 线性 区 域内 放大 因子 置 为 | 
1。 这 种 形式 的 激活 函数 是 对 非 线 性 放大 1 
器 的 近似 。 下 面 两 种 情况 可 以 看 作 是 此 函 。 o8 J 
数 的 特例 : 0.6 增加 
。 在 保持 运算 的 线性 区 域 不 超过 的 W HA a 
情况 下 ， 就 成 为 线性 组 合 器 。 0 


。 如 果 线 性 区 的 放大 因子 无 穷 大 ， 
那么 此 函数 退化 成 阅 值 函数 。 ° 
3. sigmoid 函 教 。 此 函数 的 图 形 是 S- 














形 的， 在 构造 人 工 神 经 网 络 中 是 最 常用 的 
激活 函数 。 它 是 严格 的 递增 函数 ， 在 线性 
和 非 线 性 行为 之 间 显 现 出 较 好 的 平衡 ” 。 


图 1-8 
a) PBK b) 分 段 线性 函数 


c) 具 有 不 同 


倾斜 参数 a 的 sigmoid 函数 


它 的 一 个 例子 是 logistic BH, BMAF: 
1 


900) = Frap w) (1.12) 
其 中 a 是 sigmoid 函数 的 倾 针 参数。 改变 参数 a 就 可 以 改变 倾斜 程度 ， 如 图 1-8c 所 示 。 实 际 
上 ， 在 原点 的 斜 度 等 于 a/4 。 在 极限 情况 下 ， 倾 斜 参数 趋 于 无 穷 ，siemoid 就 变 成 了 简单 的 


BUH PRA. BUA PR ALA 0 或 1， 而 sigmoid 的 值 域 是 0 到 1 的 连续 区 间 。 还 要 注意 到 
sigmoid 函数 是 可 微分 的 ， 而 闭 值 函数 不 是 。( 如 第 4 章 所 描述 的 ， 可 微 性 是 神经 网 络 理论 的 








[a] 
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一 个 重要 特征 。) 

在 (1.8)，(1.11) 和 (1.12) 中 定义 的 激活 函数 的 值 域 是 0 到 + 1。 有 时 也 期 望 激活 函数 的 
值 域 是 - 1 到 +1， 这 种 情况 下 激活 函数 是 关于 原点 反对 称 的 ; 就 是 说 ， 激 活 函 数 是 诱导 局 
部 域 的 奇 函 数 。 特 别 地 ， 阐 值 孙 数 (1.8) 的 男 一 种 形式 是 


1, ”如果 vw>0 
pl(v)=1 0, 如果 w=0 (1.13) 
-1, 如 果 v < 0 
通常 称 为 signum 函数 。 为 了 和 sigmoid 函数 相对 应 ， 我 们 可 以 使 用 双 曲 正切 函数 
、 (v) = tanh(v) (1.14) 


如 (14) 所 示 ， 它 允许 sigmoid 型 的 激活 函数 取 负 值 ， 这 在 分 析 时 是 有 用 的 (从 第 4 章 可 见 ) 。 
神经 元 的 统计 模型 


图 1-7 的 神经 元 模型 是 确定 性 的 ， 它 的 输入 输出 行为 由 所 有 的 输入 精确 定义 。 但 在 一 些 
神经 网 络 应 用 中 ， 基 于 随机 神经 模型 的 分 析 更 符合 需要 。 用 一 些 解析 处 理 方法 ，McCulloch- 
Pitts 模型 的 激活 函数 用 概率 分 布 来 实现 。 特 别 的 ， 一 个 神经 元 允许 有 两 个 可 能 的 状态 值 + 1 
或 -1。 一 个 神经 元 激发 ( 即 它 的 状态 开关 从 “ 关 ” 到 “ 开 ”) 是 随机 决定 的 。 用 x 表示 神经 元 的 
状态 ，P(w) 表 示 激 发 的 概率 ， 其 中 o 是 诱导 局 部 域 。 我 们 可 以 设 定 

raft 以 概率 P) 
l-1, 以 概率 1 - P(v) 
P(o) 的 一 个 标准 选择 是 sigmoid 型 的 函数 (Little，1974): 





1 
P(v) = 1 + exp(- v/T) (1.15) 


其 中 了 是 伪 温 度 ， 控 制 激发 中 的 噪声 水 平 即 不 确定 性 。 但 是 ， 不 管 神经 网 络 是 生物 的 或 人 
工 的 ， 它 都 不 是 神经 网 络 的 物理 温度 ， 认 识 到 这 一 点 很 重要 。 进 一 步 ， 正 如 所 说 明 的 一 样 ， 
我 们 仅仅 将 了 看 作 是 一 个 控制 表示 突 触 噪音 的 效果 的 热 波 动 的 参数 。 注 意 当 7 趋 于 0， 
(1.1$) 所 描述 的 随机 神经 元 就 变 为 无 噪声 ( 即 确定 性 ) 形 式 ， 也 就 是 McCulloch-Pitts 模型 。 


1.4 看 作 有 向 图 的 神经 网 络 


图 1-5 的 方 框图 或 图 1-7 的 方 框图 提供 了 构成 人 工 神 经 元 模型 各 个 要 素 的 功能 描述 。 我 
们 可 以 在 不 牺牲 模型 功能 细节 的 条 件 下 用 信和 号 流 图 来 简化 模型 外 观 。Mason(1953 ,1956 ) 开 发 
了 线性 网 络 的 一 套 信号 流 图 ， 并 带 有 定义 好 的 规则 。 神 经 元 的 非 线 性 限制 了 它们 在 神经 网 络 
中 的 应 用 范围 。 不 过 ， 信 和 号 流 图 在 描述 神经 网 络 信号 流 时 为 我 们 提供 了 简洁 的 方法 ， 我 们 在 
本 节 进 行 讨论 。 

信号 流 图 是 一 个 由 有 向 连接 (分 支 ) 的 互 连 节 点 组 成 的 网 络 。 一 个 典型 的 节点 j 有 一 个 相 
应 的 节点 信号 x;。 一 个 典型 的 有 向 连接 从 节点 开始 ， 到 节点 结束 。 它 有 相应 的 传递 函数 





或 传递 系数 以 确定 节点 有 的 信号 y 依赖 于 节点 j 的 信号 x 之 间 的 方式 。 图 形 中 各 部 分 的 信 
号 流动 遵循 3 条 基本 规则 。 
规则 1 信号 仅仅 沿 着 定义 好 的 箭头 方向 在 连接 上 流动 。 两 种 不 同 的 连接 可 以 区 别 开 来 : 
。 突 触 连接 ， 它 的 行为 由 线性 输入 输出 关系 决定 。 特 别 如 图 1-9a 所 示 ， 节 点 信和 号 y 
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由 节点 信和 号 x RAR AAR wy Eo 

。 激活 连接 ， 它 的 行为 一 般 由 非 线 性 输入 输出 关系 决定 。 如 图 1-9b 所 示 ， 其 中 (+) 
为 非 线性 激活 函数 。 

规则 2 节点 信和 号 等 于 经 由 进入 连接 的 有 关节 点 的 信号 的 代数 和 。 

这 个 规则 如 图 1-9c 所 示 突 触 会 聚 或 遍 入 的 情形 。 

规则 3 节点 信号 沿 每 个 外 向 连接 向 外 传递 ， 此 时 传递 的 信号 完全 独立 于 外 向 连接 的 传 

BRK. . 
如 图 1-9d 所 示 突 触 散 发 或 肩 出 的 情形 。 
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图 1-9 用 于 构造 信号 流 图 的 基本 规则 图 示 


比如 ， 用 这 些 规则 ， 我 们 可 以 制作 对 应 于 x0=+l 
图 1-7 的 信号 流 图 图 1-10。 可 以 看 出 , 图 1- 10 
要 比 图 1-7 的 形式 更 简单 ， 但 是 它 包 含 了 后 者 
描绘 的 所 有 功能 细节 。 注 意 ， 在 两 个 图 中 ， 输 
A xo = +1 和 相关 的 突 触 权 值 wo = br, HP 
b, 是 神经 元 上 的 偏 置 。 

确实 ,根据 图 1-10 的 信号 流 图 为 神经 元 
模型 ， 我 们 可 以 给 出 一 个 神经 网 络 的 下 列 数学 
定义 : 

神经 网 络 是 一 个 由 具有 互 连 接 突 触 的 节点 m 
和 激活 连接 构成 的 有 向 图 ， 具 有 4 个 主要 特征 : 图 1- 10 神经 元 的 信号 流 图 

1. 每 个 神经 元 可 表示 为 一 组 线性 的 突 触 连 
接 ， 一 个 应 用 它 的 外 部 偏 置 ， 以 及 可 能 的 非 线性 激活 连接 。 偏 置 由 和 一 个 固定 为 +1 的 输入 
连接 的 突 触 连接 表示 。 

的 

3. 输入 信号 的 加 权 和 构成 该 神经 元 的 请 时 局 部 域 。 

4. 激活 连接 压制 神经 元 的 诱导 局 部 域 产生 输出 。 

一 个 神经 元 的 状态 可 以 定义 为 它 的 输出 信号 或 者 诱导 局 部 域 。 

一 个 如 此 定义 的 有 向 图 是 完全 的 ， 这 是 指 它 不 仅仅 描述 了 神经 元 间 的 信号 流 ， 也 描述 了 
每 个 神经 元 内 部 的 信号 流 。 但 是 当 我 们 的 注意 集中 在 神经 元 之 间 的 信号 流 上 时 ， 可 以 使 用 这 
个 图 的 一 个 简略 形式 ， 它 省 略 神经 元 内 部 的 信号 流 的 细节 。 这 样 的 有 向 图 是 局 部 完全 的 。 它 
的 特征 是 : 

1. 源 节 点 向 图 提供 输入 信和 号 。 


x] 
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2. 每 个 神经 元 由 一 个 计算 节点 表示 。 
3. 联结 图 中 源 节 点 和 计算 节点 之 间 的 通信 连接 没有 权 值 ， 它 们 仅仅 提供 图 中 信和 号 流 的 


方向 。 

这 样 定义 的 一 个 局 部 完全 的 有 向 图 就 是 所 谓 神经 网 络 wst 
的 结构 图 ， 描 述 神经 网 络 的 布局 。 图 1-11 给 具有 m 个 源 x, 
节点 和 一 个 用 于 偏 置 的 固定 为 +1 的 节点 组 成 的 单一 神经 ” 输出 
元 的 简单 情况 。 注 意 表 示 该 神经 元 的 计算 节点 以 阴影 显 
示 ， 而 源 节点 用 小 方块 显示 。 在 本 书 中 ,我们 都 遵循 这 里 : 
的 表示 方法 。 在 1.6 节 有 更 精巧 的 布局 结构 图 的 例子 。 žm 

总 的 来 说 ， 我 们 有 三 种 神经 网 络 的 图 形 表示 方法 : 图 1.11 神经 元 的 结构 图 


。 方 框图 ， 提 供 网 络 的 功能 描述 。 
。 信号 流 图 ， 提 供 网 络 中 完全 的 信号 流 描述 。 
。 结构 图 ,描述 网 络 布局 。 


1.5 反馈 


反馈 存在 于 动态 系统 ， 系 统一 个 元 素 的 输出 部 分 影响 作用 于 该 元 素 输 入 ， 因 此 造成 了 一 
个 或 多 个 围绕 系统 的 信号 传输 的 封闭 路 径 。 实 际 上 ， 反 馈 存 在 于 所 有 动物 的 神经 系统 的 几乎 
每 一 部 分 中 (Freeman,1975)。 并 且 ， 在 一 类 特殊 的 神经 网 络 一 一 递归 网 络 的 研究 中 扮演 重要 


的 角色 。 图 1- 12 表示 单 环 反馈 系统 的 信号 流 图 ， 输 入 信和 号 cm x(n) A vr 
a(n) 内 部 信号 x';(n) 和 输出 信号 y(n) 是 离散 时 间 变 量 n 7 
的 函数 。 这 个 系统 由 “ 算 子 "4 表示 的 前 向 通路 和 “ 算 子 ”B 表 R 
示 的 反馈 通路 组 成 ， 系 统 是 线性 的 。 特 别 的 ， 前 向 通道 的 输 图 1-12 单 环 反馈 系统 
出 通过 反馈 通道 影响 自己 的 输出 。 我 们 可 以 很 容易 得 到 图 1- 的 信号 流 图 
12 的 输入 输出 关系 : 
y(n) = 4Lxz (nm)] (1.16) 
x(n) = x(n) + Bly, (n)] (1.17) 
其 中 方 括号 是 为 了 强调 A 和 8B 是 扮演 算 子 的 角色 。 在 (1.16)，(1.17) 中 消去 x(n), 8) 
y(n) = régla) (1.18) 
我 们 把 4/(1 - 48 ) 称 为 系统 的 闭环 算 子 ，4B 称 为 开 环 算 子 。 一 般 说 来 ， 开 环 算 子 没有 交换 
性 ， 即 AB BA. 


例如 ， 考 虑 图 1- 13 中 的 单 环 反馈 系统 。4 是 一 个 固定 的 权 值 w; B 是 单位 延迟 算 子 
zz  ， 其 输出 是 输入 延迟 一 个 时 间 单 位 的 结果 。 我 们 可 以 将 这 个 系统 的 闭环 算 子 表示 为 
4 w 


x(n) w 


T= ABT Ta yg = CE me) yn) nm) 
用 (1 - wz!) 二 项 式 展开 ， 可 以 把 系统 的 闭环 算 子 重 写 为 1 
ve = w u's! (1.19) 图 1-13 一 阶 无 限 冲 击 响应 
一 l=0 


(IIR) 滤 波 器 的 信号 流 图 
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因此 ， 将 式 (1.19) 代 人 式 (1.18)， 我 们 有 
y,(n) = w Du [aC n)} (1.20) 


其 中 ， 再 次 用 方 括号 强调 z -是 算 子 的 事实 。 特别 yn) 

的 ， 由 z” 的 定义 我 们 有 wel 
z‘[x(n)] = x(n- 1) (1.21) wx (0) 人 

其 中 x(n — 1) AALS SIER 1 个 时 间 单 位 的 样 

本 。 因 此 ， 可 以 用 输入 x;(n) 现 在 的 和 过 去 的 所 有 

样本 的 加 权 和 来 表示 输出 y(n): 


y,(n) = Sy wl a(n - 1) (1.22) 


我 们 现在 清楚 知道 系统 的 动态 行为 是 由 权 值 w 控 
制 的 。 特 别 是 ， 我 们 可 以 识别 两 种 特殊 情况 : 

1.1wl < 1， 此 时 输出 信号 y(n) 以 指数 收敛 ; 
也 就 是 说 ， 系 统 稳定 ， 如 图 1- 14a 对 一 个 正 w 值 的 
情况 所 示 。 

2.1w1 宇 1， 此 时 输出 信号 y(n ) 发 散 ; 也 就 是 
说 , 系统 不 稳定 。 图 1-14b 是 1w| =1 的 情况 ， 发 散 
是 线性 的 ; 图 1- 14c 是 1w1 > 1 的 情况 ， 发 散 是 指 
数 的 。 

稳定 性 是 反馈 系统 研究 中 的 突出 特征 。 

lxw1<1l 的 情况 对 应 系统 具有 无 限 记 忆 ， 这 是 
指 系统 的 输出 依赖 于 无 限 过 去 的 输入 样本 。 并 且 ， 
记忆 的 强度 是 随时 间 n FER HY 

由 于 用 于 构造 神经 网 络 的 处 理 单元 通常 是 非 线 
性 的 ， 它 所 涉及 的 反馈 应 用 的 动态 行为 分 析 都 很 复 图 1-14 图 1-13 中 前 向 权重 w 的 


杂 。 这 一 点 在 本 书后 面部 分 给 出 进一步 分 析 。 三 种 不 同 值 的 时 间 响 应 
DRE 了 b) 线 性 发 散 ”。) 指 数 发 散 
1.6 网 络 结构 


神经 网 络 中 神经 元 的 构造 方式 是 和 训练 网 络 的 学 习 算法 紧密 连接 的 。 因 此 ， 我 们 可 以 
说 ， 用 于 网 络 设 计 的 学 习 算法 (规则 ) 是 被 构造 的 。 我 们 将 在 下 一 章 讨论 学 习 算 法 的 分 类 ， 而 
在 本 书 随后 的 各 章 中 发 展 不 同 的 学 习 算 法 。 这 一 节 我 们 专注 于 网 络 的 体系 结构 。 

一 般 说 来 ， 我 们 可 以 区 分 三 种 基本 不 同 的 网 络 结构 。 

1. 单 层 前 馈 网 络 

在 分 层 网 络 中 ， 神 经 元 以 层 的 形式 组 织 。 在 最 简单 的 分 层 网 络 中 ， 源 节点 构成 输入 层 ， 

直接 投射 到 神经 元 输出 层 ( 计 算 节 点 ) 上 去 ， 而 不 是 相反 。 也 就 是 说 ， 这 个 网 络 是 严格 的 无 图 


的 或 前 馈 的 。 如 图 1-15 所 示 ， 输 出 输入 层 各 有 4 个 节点 。 这 样 一 个 网 络 称 为 单 层 网 。“ 单 
层 " 指 的 是 计算 节点 (神经 元 ) 输 出 层 。 我 们 不 把 源 节点 的 输入 层 计 算 在 内 ,因为 在 这 一 层 没 
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有 计算 。 
2. 多 层 前 馈 网 


前 馈 网 络 的 第 二 种 网 络 有 一 层 或 多 层 隐藏 节 
点 层 ， 相 应 的 计算 节点 称 为 隐藏 单元 或 隐藏 神经 
元 。 隐 藏 神经 元 的 功能 是 以 某 种 有 用 方式 介入 外 
部 输入 和 网 络 输出 之 中 。 加 上 一 个 或 多 个 隐藏 
层 ， 网 络 可 以 引出 高 阶 统计 特性 。 即 使 网 络 为 局 
部 连接 ， 由 于 额外 的 突 触 连接 和 额外 的 神经 交互 
作用 ， 可 以 使 网 络 在 不 那么 严格 意义 下 获得 一 个 
全 局 关系 (Churchland and Sejnowski, 1992 )。 当 输 
和信 层 很 大 的 时 候 ， 隐 藏 层 提 取 高 阶 统计 特性 的 能 
力 就 更 有 价值 了 。 图 1-15 单 层 前 馈 或 无 圈 神 经 元 网 络 

输入 层 的 源 节点 提供 激活 模式 的 元 素 ( 输 入 
向 量 )， 组 成 第 二 层 ( 第 一 隐藏 层 ) 神 经 元 (计算 节 
点 ) 的 输入 信号 。 第 二 层 的 输出 信号 作为 第 三 层 
输入 ， 这 样 一 直 传递 下 去 。 通 常 ， 每 一 层 的 输入 
都 是 上 一 层 的 输出 ， 最 后 的 输出 层 给 出 相对 于 源 
节点 的 激活 模式 的 网 络 输出 。 结 构图 如 图 1- 16 
所 示 。 图 中 只 有 一 个 隐藏 层 以 简化 神经 网 络 的 布 
局 。 这 是 一 个 10-4-2 网 络 ， 其 中 有 10 个 源 节 
点 ，4 个 隐藏 神经 元 ，2 个 输出 神经 元 。 作 为 另 
外 一 个 例子 ， 具 有 m 个 源 节 点 的 前 馈 网 络 ， 第 
一 个 隐藏 层 有 h 个 神经 元 ， 第 二 个 隐藏 层 有 h, 
个 神经 元 ,输出 层 有 9 个 神经 元 ， 可 以 称 为 








源 节点 输入 层 。 ”神经 元 输出 层 





m- h, - h, - g 网 络 。 a 
源 节点 隐藏 神 输出 神 
图 1- 16 的 网 络 也 可 以 称 之 为 完全 连接 网 络 ， 输入 层 ARE 经 元 层 
六 是 指 相 名 屋 的 任意 一 对 节点 都 有 连接 。 如 果 不 图 1.16 具有 -个 隐 层 和 输出 层 
是 这 样 ， 我 们 称 之 为 部 分 连接 网 络 。 的 全 连接 前 馈 或 无 圈 网 络 
3. 递归 网 络 


递归 网 络 和 前 馈 网 络 的 区 别 在 于 它 至 少 有 一 个 反馈 环 。 例 如 图 1-17 所 示 , 递 归 网 络 可 
以 是 这 样 ， 单 层 网 络 的 每 一 个 神经 元 的 输出 都 反馈 到 所 有 其 他 神经 元 的 输入 中 去 。 这 个 图 中 
描绘 的 结构 没有 自 反馈 环 ; 自 反 馈 环 表示 神经 元 的 输出 反馈 到 它 自己 的 输入 上 去 。 图 1-17 
也 没有 隐藏 层 。 图 1- 18 所 示 是 带 有 隐藏 神经 元 的 一 类 递归 网 络 ， 反 馈 连接 的 起 点 包括 隐藏 
层 神经 元 和 输出 神经 元 。 

反馈 环 的 存在 ， 不 管 在 图 1- 17 或 图 1-18 的 递归 结构 中 ， 对 网 络 的 学 习 能 力 和 它 的 性 能 
有 深刻 的 影响 。 并 且 ， 由 于 反馈 环 涉 及 使 用 单元 延迟 元 素 ( 记 为 z ) 构 成 的 特殊 分 支 ， 假如 
神经 网 络 包含 非 线性 单元 ， 这 导致 非 线 性 的 动态 行为 。 
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图 1-17 无 自 反馈 环 和 隐藏 神经 元 的 递归 网 络 图 1-18 有 隐藏 神经 元 的 递归 网 络 


1.7 知识 表示 


在 1.1 节 中 用 到 了 “知识 "这 个 术语 ， 我 们 用 它 来 定义 神经 网 络 的 时 候 没 有 对 它 的 涵义 作 
明确 的 表述 。 我 们 注意 到 这 一 点 ， 下 面 给 出 一 般 性 的 定义 (Fischler and Firschein, 1987 ): 

知识 就 是 人 或 机 器 储存 起 来 以 备 使 用 的 信息 或 模型 ， 用 来 对 外 部 世界 作出 解释 、 预 测 和 
适当 的 反应 。 

知识 表示 的 主要 特征 有 两 个 方面 : (1) 什 么 信息 是 明确 表述 的 ; (2) 物 理 上 信息 是 如 何 被 
编码 和 使 用 的 。 按 知识 表示 的 本 性 ， 它 是 目标 导向 的 。 在 “智能 ?机 器 的 现实 应 用 中 ， 可 以 说 
好 的 方案 取决 于 知识 的 好 的 表 式 (Woods,1986)。 代 表 一 类 特殊 智能 机 器 的 神经 网 络 也 是 如 
此 。 但 是 ， 典 型 地 从 输入 到 内 部 网 络 参数 的 可 能 表现 形式 是 高 度 多 样 性 的 ， 这 导致 基于 神经 
网 络 的 满意 解 的 求解 成 为 一 个 挑战 性 的 设计 。 

神经 网 络 的 一 个 主要 任务 是 学 习 它 依存 的 外 部 世界 (环境 ) 的 一 个 模型 ， 并 且 保 持 该 模型 
和 真实 世界 足够 相 容 ， 这 样 得 到 感 兴趣 的 应 用 的 特定 目标 。 有 关 世 界 的 知识 由 两 类 信息 组 
成 。 

1. 已 知 世 界 的 状态 ， 由 什么 事实 和 已 知道 什么 事实 所 表示 ; 这 种 形式 的 知识 被 称 为 先 
验 信息 。 

2. 对 世界 的 观察 (测量 )， 由 设计 的 探测 神经 网 络 所 在 的 运行 环境 的 传感器 获得 。 一 般 
说 来 ， 这 些 观察 是 带 有 噪声 的 ， 由 于 传感器 的 噪声 和 系统 的 不 完善 而 产生 误差 。 不 管 怎 样 ， 
这 样 得 到 的 观察 是 用 来 训练 神经 网 络 例子 的 信息 池 。 

例子 可 以 是 有 标记 的 ， 也 可 以 是 无 标记 的 。 例 子 有 标记 时 ， 每 个 例子 的 输入 信号 有 相应 
的 与 之 配对 的 期 望 响应 。 另 一 方面 ， 无 标记 的 例子 包括 输入 信和 号 自身 的 不 同 实现 。 不 管 怎 
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[24] 样 ， 一 组 例子 ， 无 论 有 标号 或 无 标 导 ， 代 表 了 神经 网 络 通过 训练 可 以 学 习 的 环境 知识 。 
一 组 由 输入 信号 和 相应 的 期 望 响 应 组 成 的 输入 输出 对 称 为 训练 数据 集 或 训练 样本 。 为 了 
说 明 怎 样 使 用 这 样 的 数据 集 ， 例 如 考虑 手写 数字 识别 问题 。 这 个 问题 中 ， 输 入 信号 是 一 幅 黑 
白 图 像 ， 每 幅 图 像 代表 从 背景 中 明显 分 离 的 十 个 数字 之 一 。 期 望 的 响应 就 是 “确定 "网 络 的 输 
和 信号 代表 哪个 数字 。 通 常 训 练 样 本 就 是 手写 体 数字 的 大 量变 形 ， 这 代表 了 真实 世界 的 情 
形 。 有 了 这 些 样本 ， 可 以 如 下 设计 网 络 : 
。 第 一 ， 选 择 一 个 合适 的 结构 ， 输 入 层 的 源 节点 数 和 输入 图 像 的 像素 数 一 样 ， 而 输出 
层 包 含 10 个 神经 元 (每 个 数字 对 应 一 个 神经 元 )。 利 用 合适 的 算法 ， 以 样本 的 一 个 子 
集训 练 网 络 。 这 个 设计 阶段 叫 学 习 。 
， 第 二 ， 用 陌生 样本 检验 已 训练 网 络 的 识别 性 能 。 特 别 ， 呈 现 给 网 络 一 幅 输入 图 像 ， 
此 时 并 不 告诉 它 这 幅 图 像 属 于 哪个 数字 。 网 络 的 性 能 就 用 网 络 报告 的 数字 类 别 和 输 
入 图 像 的 实际 的 类 别 的 差异 来 衡量 。 网 络 运行 的 这 第 二 个 阶段 叫 泛 化 ， 这 是 借用 心 
理学 的 术语 。 
这 里 神经 网 络 设计 与 它 的 传统 信息 处 理 对 应 部 分 (模式 分 类 器 ) 有 着 根本 的 差别 。 在 后 一 
种 情况 ， 首 先 我 们 通常 设计 一 个 环境 观察 的 数学 模型 ， 利 用 真实 数据 验证 这 个 模型 ， 再 以 此 
模型 为 基础 建立 设计 。 相 反 ， 神 经 网 络 的 设计 直接 基于 实际 数据 ， 让 数据 自己 说 话 。 因 此 神 
经 网 络 提供 了 内 艇 于 环境 的 隐 含 模型 ， 但 是 也 实现 了 感 兴趣 的 信息 处 理 功能 。 
用 于 训练 神经 网 络 的 例子 可 以 由 正 例 和 反例 组 成 。 比 如 ， 在 被 动 声 纳 探测 问题 上 ， 正 例 
指 包 括 感 兴趣 的 目标 (如 潜艇 ) 的 输入 训练 数据 。 在 被 动 声 纳 环境 ， 我 们 知道 测试 数据 中 海洋 
生物 的 可 能 出 现 经 常 造成 虚 警 。 为 了 缓解 这 个 问题 ， 把 反例 (如 海洋 生物 的 回声 ) 包 括 在 训练 
集中 以 教会 网 络 不 要 混淆 海洋 生物 和 目标 。 
在 神经 网 络 的 独特 结构 中 ， 周 围 环境 的 知识 表示 由 网 络 的 自由 参数 ( 即 突 触 权 值 和 偏 置 ) 
的 取 值 定义 。 这 种 知识 表示 的 形式 构成 神经 网 络 的 设计 本 身 ， 因 此 ， 也 是 网 络 性 能 的 关键 。 
25 人 工 网 络 中 的 知识 表示 是 很 复杂 的 。 但 是 这 里 有 它 通 用 的 4 条 规则 (Anderson,1988) 。 
规则 1 相似 的 类 别 中 相似 输入 通常 应 产生 成 网 络 中 相似 的 表示 ， 因 此， 可 以 归 人 同一 
类 中 。 
度量 输入 相似 性 有 很 多 方法 。 常 用 的 相似 度量 是 利用 欧 几 里 德 距离 。 作 为 特例 ， 令 x, 
是 一 个 m x1 的 实 元 素 列 向 量 ， 

















X; = Laas Mins s tin 1” 
上 标 了 表示 和 矩阵 转 置 。 向 量 x, 就 是 m 维 空间 ( 称 为 欧 几 里 德 空间 ) 的 一 个 点 ， 记 为 R A 
个 m x 1 向 量 x; ,x) 之 间 的 欧 几 里 德 距离 就 是 


d(x,,x;) = lx; -x || = PE 一 xa) | (1.23) 


其 中 zx , xj 分 别 是 输入 向 量 x ,x 的 第 大 个 分 量 。 相 应 地 ， 由 向 量 x ,x 表示 的 两 个 输入 的 相 
似 性 就 定义 为 欧 几 里 德 距离 d(x; ,xj ) 的 倒数 。 输 入 向 量 x 和 x, PRUE, KLEER d 
(xx ) 就 越 小 ， 相 似 性 就 越 大 。 如 果 两 个 向 量 是 相似 的 ， 规 则 1 说 明 它们 归 入 同一 类 。 

另 一 个 相似 性 度量 是 基于 点 积 或 内 积 ， 它 借用 矩阵 代数 。 给 定 一 对 相同 维 数 的 向 量 x,， 
x ， 它 们 的 内 积 就 是 x x ， 可 展开 如 下 : 


Wh 


m 
(XiX) = xix; = >) waxy 
k=1 





内 积 (x; ,x ) 除 以 范 数 积 上 x; || | x; e‖ ， 就 是 两 个 向 量 x, ,x 的 夹 角 的 余弦 。 
这 里 定义 的 两 种 相似 性 度量 有 密切 的 联系 ， 如 图 1- 19 所 

示 。 欧 几 里 德 距离 |x -x 上 和 向 量 x, 到 向 量 x, 的 “投影 * 相 
关 。 图 1- 19 清楚 地 表明 欧 几 里 德 距离 |x -x | 越 小 ， 向 量 
x; Al x, 越 相似 ， 内 积 x x 越 大 。 


IIx; I] = Ix] =1 
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(1.24) 
为 了 把 这 种 关系 置 于 形式 化 基础 之 上 ， 我 们 首先 将 向 量 
X; 和 x; 归 一 化 ， 即 
利用 式 (1.23) 我 们 就 可 以 写成 











图 1-19 图 解 内 积 和 作 
为 模式 相似 性 度量 的 欧 

P (xax) = (x, — x))"(x; —x)) = 2 ~ 2x’x, (1.25) 几 里 德 距离 之 间 的 关系 
等 式 (1.25) 表 明 最 小 化 的 欧 几 里 德 距离 d(x, ,x ) 就 对 应 最 大 化 的 内 积 (x; ,x;) 和 最 大 化 x; 和 

xi 的 相似 性 。 

这 里 的 欧 几 里 德 距离 和 内 积 的 定义 都 是 用 确定 性 的 术语 定义 的 。 如 果 向 量 x 和 x 是 从 
不 同 数据 总 体 ( 池 ) 中 得 来 的 ， 又 该 怎样 定义 相似 性 呢 ? 作为 特例 ， 假 设 两 个 总 体 的 差异 仅 在 
它们 的 均值 向 量 。 令 p, My, 分 别 表示 向 量 x; 和 x% 的 均值 。 也 就 是 说 ， 
ph; = E[x;] (1.26) 
其 中 是 统计 期 望 算 子 。 均 值 向 量 jv 同样 定义 。 为 了 度量 这 两 个 总 体 的 距离 ， 我 们 可 以 用 
Mahalanobis 距离 来 衡量 ， 记 为 djo Mx, Bx; 的 这 种 距离 的 平方 值 定义 为 (Duda and Hart, 1973 ): 
dy = (x; -hi) E(x - p) (1.27) 
其 中 也 -是 协 方差 矩阵 马 的 道 矩阵 。 假 设 两 个 总 体 的 协 方差 矩阵 是 一 样 的 ， 表 示 如 下 ， 
E = El(x, -p,)(x, -w,)") = El(x - (x - 07] (1.28) 
Hx =x, Be =m =p MDI WAAR), Mahalanobis 距离 变 为 样本 向 量 x 和 均值 向 
量 哺 间 的 欧 几 里 德 上 距离 。 
规则 2 网 络 对 可 分 离 为 不 同 种 类 的 输入 向 量 给 出 差别 很 大 的 表示 。 
这 条 规则 与 规则 1 正 相反 。 

规则 3 如果 某 个 特征 很 重要 ， 那 么 网 络 表示 这 个 向 量 将 涉及 大 量 神经 元 。 

量 : 


比如 ， 考 虑 雷达 探测 涉及 在 散乱 状态 ( 即 雷达 从 不 期 望 的 目标 如 建筑 物 、 树 木 和 云层 的 
。 探测 概率 ， 就 是 目标 存在 时 系统 判断 目标 出 现 的 概率 。 


反射 ) 下 的 目标 (如 航空 器 ) 的 应 用 。 这 样 的 雷达 系统 的 探测 性 能 由 下 面 两 种 概率 形式 来 衡 


。 虚 敬 概率， 就 是 目标 不 存在 时 系统 判断 目标 出 现 的 概率 。 





[2 
按照 Neyman-Pearson 准则 ， 在 虚 警 概率 限制 在 一 定 范围 的 情况 下 ， 探 测 概 率 达到 最 大 值 


(Van Trees,1968)。 在 这 种 应 用 中 ， 收 到 信和 号 中 目标 的 实际 出 现代 表 输入 信号 中 的 重要 特征 。 
实际 上 ， 规 则 3 意味 着 在 真实 目标 存在 的 时 候 应 该 有 大 量 神经 元 参与 判决 该 目标 出 现 。 按 同 
样 道理 ， 仅 当 散 乱 状 态 实际 存在 的 时 候 才 应 该 有 大 量 神经 元 参与 判决 该 散乱 状态 的 出 现 。 在 
两 种 情形 下 ， 大 量 的 神经 元 保证 了 判决 的 高 度 准 确 性 和 对 错误 神经 元 的 容错 性 。 
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规则 4 先 验 信息 和 不 变性 应 该 附加 在 网 络 设 计 中 ， 这 样 不 必 学 习 它 们 就 能 简化 网 络 设 
计 。 

规则 4 特别 重要 ， 因 为 真正 坚持 这 一 规则 就 会 导致 网 络 具 有 特殊 的 (有 限制 的 ) 结 构 。 这 
一 点 是 我 们 正 需要 的 ， 原 因 如 下 (Russo,1991) : 

1. 已 知 生物 视觉 和 听觉 网 络 是 非常 特别 的 。 

2. 相对 于 完全 连接 网 络 ， 特 殊 网 络 用 于 调节 的 自由 参数 是 较 少 的 。 因 此 ， 特 殊 网 络 所 
需 的 训练 数据 更 少 ， 学 习 更 快 而 且 常 常 推 广 性 更 强 。 

3. 通过 特殊 网 络 的 信息 传输 速率 ( 即 网 络 的 通过 数据 ) 是 增加 的 。 

4. 和 全 连接 网 络 相 比特 殊 网 络 的 建设 成 本 比较 低 ， 因 为 规模 较 小 。 


怎样 在 神经 网 络 设计 中 加 入 先 验 信息 


当然 ， 怎 样 在 神经 网 络 设计 中 建立 先 验 信息 ， 以 此 建立 一 种 特殊 的 网 络 结 构 ， 这 是 必须 
考虑 的 重要 的 问题 。 不 幸 的 是 ， 现 在 还 没有 一 种 有 效 的 规则 来 使 用 先 验 信息 提高 网 络 性 能 ; 
我 们 只 有 某 些 特别 的 过 程 ， 已 知 可 以 产生 一 些 有 用 的 结果 。 特 别 是 ， 我 们 使 用 下 面 两 种 技术 
的 结合 (LeCun et al. ,1990a): 

1. 通过 使 用 称 为 接收 域 呈 的 局 部 连接 ， 限 制 网 络 结构 。 

2. 通过 使 用 权 值 共享 [9 ， 限 制 突 触 权 值 的 选择 。 

这 两 种 方法 ， 特 别 是 后 一 种 ， 有 很 好 的 附带 效益 ， 它 使 网 络 自由 参数 的 数量 显著 下 降 。 

作为 特例 ， 考 虑 一 个 如 图 1- 20 所 示 的 x 
部 分 连接 前 馈 网 络 。 这 个 网 络 有 带 限制 的 x 
结构 。 顶 部 6 个 源 节点 组 成 隐藏 神经 元 1 x 
的 接收 域 ， 网 络 其 余 隐藏 神经 元 类 推 。 为 、 
满足 权 值 共 享 限制 ， 我 们 在 隐藏 层 中 每 个 
神经 元 使 用 同一 组 突 触 权 值 。 这 样 ， 对 图 
1-20 所 示 的 例子 ， 每 个 隐藏 神经 元 有 6 个 
局 部 连接 ， 共 有 4 个 隐藏 神 经 元 ， 我 们 可 以 
表示 每 个 隐藏 神经 元 的 诱导 局 部 域 如 下 ; 


6 
v = Dy Witivi- j = 1,2,3,4 (1.29) ty o 


其 中 |iw1., 构 成 所 有 四 个 隐藏 神经 元 共享 。。 TRA RR 。。 输出 神 经 元 导 
的 同一 权 值 集 ，zx; 为 从 源 节 点 k= i+ 7-1 图 1-20 联合 利用 接受 域 和 权 值 共享 的 图 例 。 所 
挑选 的 信和 号。 方程 (1.29) 为 卷 积 和 的 形式 。 有 四 个 隐 神 经 元 共享 它们 突 触 连接 的 相同 权 值 集 
由 于 这 个 原因 ， 使 用 这 里 描述 的 局 部 连接 和 权 值 共享 的 前 馈 网 络 称 为 卷 积 网 络 。 

在 神经 网 络 的 设计 中 建立 先 验 信息 的 问题 是 属于 规则 4 的 一 部 分 ; 该 规则 的 剩余 部 分 涉 
及 不 变性 问题 。 


如 何在 网 络 设 计 中 建立 不 变性 


考虑 下 列 物理 现象 : 
。 当 感 兴趣 的 目标 旋转 时 ， 观 察 者 感知 到 的 目标 的 图 像 通 常会 有 相应 的 变化 。 
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。 在 一 个 提供 它 周 围 环境 的 幅度 和 相位 信息 的 相干 雷达 中 ， 由 于 目标 相对 于 雷达 射线 

运动 造成 的 多 普 勒 效应 活动 目标 的 回声 在 频率 上 会 产生 偏 移 。 

。 人 说 话 的 语调 会 有 高 低 快 慢 的 变化 。 

为 了 分 别 建立 一 个 对 象 识 别 系统 、 一 个 雷达 日 标识 别 系统 和 一 个 语音 识别 系统 处 理 这 些 
现象 ， 系 统 必须 可 以 应 付 一 定 范围 内 的 观察 信号 的 变换 。 相 应 地 ， 一 个 模式 识别 问题 的 主要 
任务 就 是 设计 对 这 种 变换 不 变 的 分 类 器 。 也 就 是 说 ， 分 类 器 输出 结果 的 类 别 估计 不 受 分 类 器 
输入 观察 信号 变换 的 影响 。 

至 少 可 用 三 种 技术 使 得 分 类 器 型 的 神经 网 络 对 变换 不 变 (Barnard and Casasent, 1991) ; 

1. 结构 不 变性 。 适 当地 组 织 它 的 设计 ， 在 神经 网 络 中 加 进 不 变性 。 特 别 是 ， 在 建立 网 
络 的 神经 元 突 触 连接 时 要 求 同 一 输入 变换 后 必须 得 到 同样 的 输出 。 例 如 考虑 利用 神经 网 络 对 
输入 图 像 的 分 类 问题 ， 要 求 神经 网 络 在 平面 内 不 受 关于 中 心 的 旋转 的 影响 。 我 们 可 以 在 网 络 
中 强制 加 上 旋转 不 变性 如 下 ; 令 人 表示 神经 元 和 输入 图 像 的 像素 i 的 连接 。 如 果 对 所 有 两 
个 到 图 像 中 心 距离 相等 的 像素 i 和 上 强制 w = w， 那 么 神经 网 络 对 平面 内 的 旋转 不 变 。 但 
是 为 了 保持 旋转 不 变性 ， 对 从 原点 出 发 的 相同 半径 距离 上 的 输入 图 像 的 每 个 像素 必须 复制 突 
触 权 值 w;。 这 指出 了 结构 不 变性 的 一 个 缺点 ; 神经 网 络 即 使 在 处 理 中 等 大 小 的 图 像 时 ， 网 
络 中 的 连接 数目 也 会 变 得 非常 大 。 

2. 训练 不 变性 。 神 经 网 络 有 天 生 的 模式 分 类 的 能 力 。 利 用 这 种 能 力 可 以 直接 得 到 下 面 
的 变换 不 变性 。 用 一 些 来 自 同一 目标 的 经 不 同 变换 后 得 到 的 样本 ( 即 目标 的 不 同方 面 ) 训 练 网 
络 ， 这 些 样本 代表 着 目标 的 不 同 变换 。 假 设 样本 足够 大 且 训练 后 的 网 络 已 经 学 会 分 辨 目标 的 
不 同方 面 , 我 们 就 可 以 期 望 训练 后 的 网 络 能 对 已 出 现 目标 的 不 同 变换 作出 正确 的 推广 。 但 是 
从 工程 的 角度 看 ， 训 练 不 变性 有 两 方面 不 足 : 第 一 ， 如 果 一 个 神经 网 络 训练 后 对 已 知 变换 的 
目标 有 不 变性 ， 不 一 定 能 保证 它 对 其 他 类 型 的 目标 的 变换 也 有 不 变性 。 第 二 ， 网 络 的 计算 要 
求 太 难 对 付 了 ， 特 别 在 高 维特 征 空 间 尤 其 如 此 。 

3. 特征 空间 不 变性 。 第 三 种 建立 神经 网 络 不 变性 分 类 器 的 技术 如 图 1-21 所 示 。 它 依赖 
于 这 样 的 前 提 条 件 ， 即 能 提取 表示 输入 数据 本 质 信 息 内 容 特性 的 特征 ， 并 且 它 对 输入 的 变换 
保持 不 变 。 如 果 使 用 这 样 的 特征 ， 那 么 分 类 神经 网 就 可 以 从 刻画 具有 复杂 的 判定 边界 的 目标 
变换 范围 的 负担 中 解脱 出 来 。 确 实 ， 同 一 目标 的 不 同 的 事例 的 差异 仅仅 在 于 噪音 和 偶发 事件 
等 不 可 避免 因素 的 影响 。 特 征 空间 不 变性 提供 了 三 个 明显 的 好 处 : 第 一 ， 适 用 于 网 络 的 特征 
数 可 以 降低 到 理想 的 水 平 。 第 二 ， 网 络 设计 的 要 求 放宽 了 。 第 三 ， 所 有 目标 的 已 知 变 换 的 不 
变性 都 得 到 保证 (Bamard and Casasent, 1991 )。 但 是 ， 这 个 方法 要 求 所 求 问 题 的 先 验 知识 。 


总 的 说 来 ， 利 用 所 描述 的 不 变性 特征 
we 可 以 提供 最 适合 神经 网 络 分 类 器 的 输入 类 估计 

为 了 描述 不 变性 特征 空间 ， 考 虑 一 个 
例子 , 用 于 空中 监控 相干 雷达 系统 ， 其 目标 
可 能 是 飞机 ， 天 气 ， 乌 群 和 地 面目 标 。 从 这 些 目 标的 雷达 回声 有 特有 的 谱 特征 。 并 且 ， 实 验 
研究 表明 这 样 的 雷达 信和 号 容易 用 阶 为 中 等 大 小 的 自 回 归 (autoregressive, AR ) 过 程 模型 来 建 模 
(Haykin and Deng,1991)。AR 模型 是 如 下 对 复数 数据 定义 的 回归 模型 的 特殊 形式 : 


图 1-21 不 变性 特征 空间 型 系统 方 框图 
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x(n) = Daj x(n - i) + e(n) (1.30) 


其 中 {a,j 为 AR 系数 ，M 为 模型 阶 ，x(n) 为 输入 ，e(n) 为 白 噪 声 的 误差 。 基 本 上 , 方程 
(1.30) 的 AR 模型 由 带 状 延迟 线 滤波 器 表示 ， 如 图 1-22a 中 M =2 的 情形 。 同 样 ， 它 可 由 图 
1-22b 所 示 的 网 格 滤波 器 表示 ， 它 的 系数 称 为 反射 系数 。 图 1-22a 中 模型 的 AR 系数 和 图 1- 
22b 中 模型 的 反射 系数 一 一 对 应 。 所 描绘 的 模型 都 假设 输入 x(n) 是 复数 ， 因 为 在 相干 雷达 
的 情形 ，AR 系数 和 反射 系数 都 为 复数 。 在 方程 (1.30) 和 图 1-22 中 的 星 号 表示 复 共 耗 。 现 在 
可 以 说 相 于 雷达 数据 可 以 用 一 组 自 回归 系数 描述 ,或 者 由 一 组 相应 的 反射 系数 丘 述 。 后 一 组 
系数 有 计算 上 的 优点 , 已 存在 有 效 的 算法 从 输入 数据 直接 计算 。 但 是 ， 特 征 提取 问题 是 很 复 
杂 的 ， 因 为 活动 物体 产生 不 同 的 多 普 勤 频率 ， 这 取决 测 得 的 物体 相对 于 雷达 的 径 向 速度 ， 以 
及 作为 特征 判别 式 的 反射 系数 的 谱 分 布 会 产生 模糊 。 为 了 克服 这 种 困难 ， 我 们 必须 建立 反射 
系数 计算 中 的 多 普 勒 不 变性 。 第 一 个 反射 系数 的 相位 角 结 果 与 雷达 信号 的 多 普 勒 频率 相等 。 
相应 地 , 归 一 化 多 普 勒 频率 可 以 去 掉 平 均 多 普 勒 平移 的 均值 。 这 些 可 以 通过 从 输入 数据 计算 
得 到 的 常规 反射 系数 fx, | 定义 新 的 反射 系数 1x ,| 来 实现 : 

Ka = Keo, m= 1,2,.%…,M (1.31) 





b) 


图 1-22 二 阶 自 回归 模型 
a) 带 状 延迟 线 模 型 b) 网 格 滤波 器 模型 ( 星 号 表示 复 共 思 ) 
其 中 6 为 第 一 反射 系数 的 相位 角 。(1.31) 描 述 的 运算 称 为 外 差 法 。 一 组 多 普 勒 不 变 雷 达 特 征 
可 由 归 一 化 的 发 射 系数 Ki ky 表示 ，x | 为 惟一 的 实 系数 。 我 们 说 过 ， 空 中 监控 的 雷 
达 目 标 主要 可 归 类 为 飞机 、 天 气 、 乌 群 和 地 面 ， 前 三 类 目标 都 是 动 的， 后 一 种 不 是 。 地 面 回 
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声 混 频 后 的 谱 参 数 和 飞机 的 类 似 。 因 为 其 小 的 多 普 鞠 平移， 地 面 回声 可 以 和 飞机 区 别 。 相 应 
的 ， 雷 达 分 类 器 包括 一 个 如 图 1-23 所 示 的 后 处 理 器 ， 操 作 分 类 结果 (编码 标号 ) 以 识别 地 面 





类 (Haykin and Deng 1991)。 这 样 ， 在 图 1-23 中 的 预 处 理 器 处 理 从 分 类 器 输入 中 抽取 的 多 普 勒 [32] 


平移 不 变 特 征 ， 而 后 处 理 器 利用 存储 的 多 普 勒 特征 区 分 返回 的 地 面 和 飞机 信号 。 















飞机 

| 特征 抽取 器 5 
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图 1-23 雷达 信号 的 多 普 勤 平移 不 变 分 类 器 


神经 网 络 知识 表示 的 一 个 更 有 趣 的 例子 是 蝙蝠 的 生物 回声 定位 声 纳 系统 。 为 了 声音 
射 ， 大 多 数 蝙 蝠 使 用 频率 调制 (FM 或 “chimp”) 信 号 ， 在 FM 信号 中 信号 的 瞬时 频率 随时 间 变 
化 。 特 别 的， 蝙蝠 用 口 发 出 短 时 FM 声 纳 信 和 号， 用 听觉 系统 来 作 接 收 器 。 对 于 感 兴趣 的 目标 
回声 在 听 党 系统 中 选用 不 同 声音 参数 组 合 的 神经 元 活动 来 表达 。 蝙 蝠 的 听觉 表达 有 三 个 主要 
的 神经 维 数 (Simmons,1991; Simmons and Saillant,1992 ) : 
。 回声 频率 ， 在 耳蜗 频率 图 中 被 编码 ; 通过 整个 听觉 系统 的 通路 保存 ， 按 照 调制 成 不 
同 频 率 的 一 定神 经 元 的 有 序 排列 。 

。 回声 幅度 ， 由 其 他 具有 不 同 动态 范围 的 神经 元 编码 ; 它 被 表示 成 幅度 调制 和 每 个 刺 
激 的 放电 次 数 。 

。 回声 延迟 ， 通 过 神经 计算 编码 (基于 交叉 相关 ) 并 产生 延迟 选择 响应 。 它 被 表示 成 目 
标 范 围 调制 。 

用 于 图 像 形成 的 目标 回声 的 两 个 主要 特点 是 目标 的 “形状 "的 谱 和 目标 范围 的 延迟 。 利 用 
目标 不 同 反射 面 的 回声 (反射 ) 的 到 达 时 间 ， 蝙 蝠 感知 “形状 ”。 为 此 目的 ， 回 声 谱 的 频率 信息 
被 转换 为 目标 的 时 间 结 构 的 估计 。 由 Simmons 及 其 合作 者 对 棕色 大 蝙蝠 (Eptesicus fuscus) 进 行 
的 试验 ， 严 格 验 证 了 这 个 转换 过 程 ， 它 的 组 成 包括 并 行 时 域 转换 和 频率 对 时 域 转换 构成 ， 它 
的 收敛 输出 产生 目标 的 感知 图 像 的 范围 轴 上 的 共同 延迟 。 虽 然 最 初 执 行 的 回声 延迟 的 听觉 时 
间 表 示 和 回声 谱 的 频率 表示 的 方法 不 同 ， 但 看 起 来 蝙蝠 的 感知 协调 性 归 因 于 变换 自身 的 一 些 
性 质 。 并 且 特 征 不 变性 被 蔡 人 声 纳 图 像 形 成 过 程 ， 所 以 它 本 质 上 独立 于 目标 相对 运动 和 蝙蝠 
自己 的 运动 。 

回 到 本 节 主 题 上 来 ， 即 神经 网 络 中 的 知识 表示 ， 这 个 论题 和 1.6 节 描 述 的 网 络 结构 有 直 
接 关系 。 不 幸 的 是 ， 还 没有 成 功 的 理论 可 以 根据 环境 优化 神经 网 络 结构 ， 或 者 评价 修改 网 络 
结构 对 网 络 内 部 知识 表示 的 影响 。 实 际 上 ， 对 这 些 问 题 的 满意 结果 经 常 要 用 穷尽 试验 研究 来 
得 到 ， 这 样 神经 网 络 的 设计 者 也 是 结构 学 习 环 中 的 关键 部 分 。 

不 管 如 何 完成 设计 ， 对 于 感 兴趣 的 问题 领域 的 知识 ， 总 是 以 相当 简单 和 直接 的 方式 通过 
对 网 络 的 训练 来 得 到 的 。 这 样 获得 的 知识 ， 网 络 通 过 突 触 连接 的 权 值 以 简洁 的 分 布 式 形式 表 
示 。 这 种 形式 的 知识 表示 使 得 神经 网 络 可 以 改进 和 推广 ， 不 幸 的 是 神经 网 络 受到 它 固有 的 缺 
乏 解 释 能 力 的 困扰 ,， 即 不 能 以 综合 的 方式 解释 作出 决定 或 报告 输出 结果 的 计算 过 程 。 这 是 一 
个 严重 的 局 限 ， 特 别 是 对 于 那些 主要 关注 安全 的 任务 ， 比 如 空中 交通 管制 和 医疗 诊断 。 在 这 
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类 应 用 中 ， 提 供 某 种 形式 的 解释 能 力 不 仅 是 非常 期 望 的 ， 而 且 是 绝对 需要 的 。 提 供 这 种 功能 
的 一 个 方法 是 把 神经 网 络 和 人 工 智能 集成 一 个 混合 系统 ， 这 在 下 节 讨 论 。 


1.8 人 工 智 能 和 神经 网 络 


人 工 智 能 (AD 的 目的 是 给 完成 人 类 当前 更 胜任 的 感知 任务 的 机 器 提供 范例 或 算法 。 这 就 
是 Sage 在 1990 年 采用 的 关于 AI 的 陈述 。 请 注意 ， 这 并 不 是 人 工 智能 惟一 公认 的 定义 。 

一 个 AI 系统 必须 可 以 完成 三 种 工作 : (1) 储 备 知 识 ，(2) 
使 用 储备 知识 解决 问题 ，(3) 通 过 经 验 获得 新 知识 。 一 个 Al 
系统 有 三 个 关键 部 分 : 表示 ， 推 理 和 学 习 ， 如 图 1-24 所 示 。 


1. 表示。 也 许 AI 最 显著 的 特征 就 是 大 量 使 用 符号 结构 
语言 表达 感 兴趣 的 问题 领域 的 一 般 知 识 和 问题 求解 的 特殊 知 


识 。 这 些 符号 通常 以 常见 的 形式 用 于 公式 中 ， 使 得 使 用 者 比 
较 容易 理解 AI 的 符号 表 式 。 确 实 ，AI 明确 的 符号 使 得 它 很 em 
适合 人 机 交流 。 

AI 研究 人 员 所 使 用 的 “知识 ”只 不 过 是 数据 的 另 一 种 名 
称 ， 它 可 以 是 说 明 性 的 ， 也 可 以 是 程序 的 。 在 说 明 表示 中 ， 图 1-24 A 系统 的 三 个 
知识 用 一 种 静态 的 事实 集合 以 及 相应 的 一 小 组 操作 这 些 事实 关键 组 成 部 分 
的 通用 程序 构成 。 说 明 表 示 的 一 个 代表 特征 是 在 使 用 者 眼中 它 自身 拥有 意义 ， 而 与 它们 在 
AI 系统 用 途 无 关 。 另 一 方面 ， 在 程序 表示 中 ， 知 识 舱 入 一 种 可 执行 代码 中 ， 由 代码 表达 知 
识 的 含义 。 这 两 种 形式 的 知识 ， 不 管 是 说 明 性 的 或 程序 的 ， 在 大 多 数 问题 领域 中 都 是 需要 
的 。 

2. 推理 。 在 它 最 基本 的 形式 中 ， 推 理 是 解决 问题 的 能 力 。 一 个 可 以 称 为 推理 系统 的 系 
统 必须 具备 一 定 条 件 (Fischler and Firschein, 1987) : 

。 系统 必须 能 够 表示 和 解决 广泛 领域 内 的 问题 和 问题 类 型 。 

。 系统 必须 能 够 利用 它 所 知道 的 明确 的 或 隐 含 的 信息 。 

。 系统 必须 有 -个 控制 机 制 ， 可 以 决定 解决 特定 问题 时 使 用 哪些 操作 ， 什 么 时 候 已 经 

获得 问题 的 一 个 特定 解 ， 或 者 什么 时 候 应 该 中 止 问题 的 进一步 工作 。 

求解 中 的 问题 可 被 看 作 一 个 搜索 问题 。 处 理 “ 搜 索 ” 的 通用 方法 是 使 用 规则 、 数 据 、 控 制 
(Nilsson, 1980 )。 规 则 作用 于 数据 ， 而 控制 作用 于 规则 。 考 虑 一 个 例子 ,“ 旅 行商 间 题 "要 求 
是 找 出 最 短 的 周游 各 个 城市 且 每 个 城市 仅 经 过 一 次 的 旅行 线路 。 这 个 问题 的 数据 由 可 能 的 线 
路 集 和 费用 的 加 权 图 构成 ， 规 则 决定 从 一 个 城市 到 另 一 个 城市 的 路 径 ， 控 制 决 定 在 何 时 使 用 
什么 规则 。 

在 现实 中 遇 到 的 很 多 情况 (如 医疗 诊断 )， 可 用 知识 是 不 完整 和 不 准确 的 。 这 时 使 用 概率 
推理 程序 ， 从 而 允许 AI 系统 可 以 处 理 不 确定 性 (Russell and Norvig, 1995; Pearl,1998) 。 

3. 学 习 。 在 图 1-25 所 示 的 简单 机 器 学 习 模型 中 ， 环 境 向 学 习 单元 提供 信息 ， 学 习 单 元 
用 这 些 信息 来 改进 知识 库 ， 最 后 性 能 单元 使 用 知识 库 完成 它 的 任务 。 环 境 给 予 机 器 的 这 些 信 
息 通常 是 不 完善 的 ， 所 以 学 习 单元 不 能 事先 知道 如 何 补充 遗漏 的 细节 或 忽略 不 重要 的 细节 。 
因而 系统 只 能 赁 猜测 开始 运行 ， 然 后 接收 性 能 单元 的 反馈 。 反 馈 机 制 可 以 使 机 器 评价 它 的 假 
设 并 作出 必要 的 修正 。 
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图 1-25 机 器 学 习 的 简单 模式 
绎 和 归纳 。 





Ea 
机 器 学 习 涉及 两 种 很 不 一 样 的 信息 处 理 : 归纳 和 演绎 。 归 纳 信息 处 理 ， 一 般 模式 和 规则 


由 原始 数据 和 经 验 决定 。 在 演绎 信息 处 理 中 ， 一 般 的 规则 被 用 来 得 出 特定 的 事实 。 基 于 相似 
实际 上 ， 这 就 是 专家 系统 的 思想 


性 的 学 习 使 用 归纳 ， 但 是 定理 的 证 明 是 公理 和 已 知 定理 的 演绎 。 基 于 解释 的 学 习 同时 使 用 演 


知识 库 的 重要 性 和 学 习 中 的 困难 使 得 发 展 各 种 方法 增加 知识 库 。 特 别 是 ， 如 果 在 给 定 领 
域 有 专家 ， 那么 取得 编辑 好 的 专家 经 验 比 试图 复制 和 亲自 经 历 获 得 经 验 的 过 程 要 容易 得 多 。 
怎样 将 熟悉 符号 的 AI 机 器 与 作为 认 知 模型 的 神经 系统 进行 比较 ”为 了 这 个 比较 ， 我 们 
作 下 面 3 分 支 ; 解释 水 平 ， 处 理 风格 和 表示 结构 (Memmi, 1989)。 
(Newell and Simon ,1972) 。 


1. 解释 水 平 。 传 统 的 AI 中 ， 重 点 是 建立 符号 表示 ， 这 样 称 呼 大 概 是 因为 它们 代表 某 些 
事物 。 从 认 知 的 观点 ，AI 假设 存在 心理 表示 ， 并 且 它 以 符号 表示 的 顺序 处 理 对 认 知 建 模 


另 一 方面 ， 神 经 网 络 强调 的 重点 是 并 行 分 布 式 处 理 (PDP) 模 型 的 发 展 。 这 些 模型 假定 信 


> 
后 


息 处 理 通 过 大 量 神经 元 间 的 相互 作用 来 进行 ， 网 络 中 每 个 神经 元 发 送 兴奋 或 抑制 信号 给 其 他 神 
经 元 (Rumelhart and MeCleland,1986 )。 同 时 ， 神 经 网 络 更 强调 认 知 现象 的 神经 生物 学 解释 。 

2. 处 理 风格 。 在 传统 的 AI 中 ， 如 同 在 典型 的 计算 机 程序 中 一 样 处 理 是 串 行 的 。 即 使 在 
没有 事先 确定 的 顺序 (例如 扫描 专家 系统 的 事实 和 规则 ) 的 情况 下 ， 处 理 还 是 一 步 一 步 进 行 
的 。 串 行 处 理 的 灵感 最 可 能 来 自 自然 语言 和 导 辑 推理 的 串 行 性 以 及 von Neumann 机 器 的 结 
构 。 不 应 忘记 ， 传 统 的 AI 在 von Neumann 机 器 之 后 不 久 诞 生 的 ， 它 和 von Neumann 机 器 有 着 
相同 的 智力 纪元 。 


相反 ， 并 行 性 在 概念 上 不 仅 是 神经 网 络 信息 处 理 的 本 质 ， 也 是 它们 灵活 性 的 来 源 。 并 且 
并 行 性 是 大 规模 的 ( 几 十 万 个 神经 元 ), 这 给 予 神经 网 络 一 个 很 好 的 鲁 棒 性 。 计 算 被 扩展 到 许 
个 神经 元 上 。 


构成 。 


G 


多 神经 元 网 络 中 ， 个 别 神经 元 的 状态 同 它们 的 期 望 值 偏离 并 不 重要 。 噪 音 输入 或 者 不 完全 的 
输入 也 可 以 被 识别 ， 受 损 网 络 也 可 以 满意 工作 ， 并 且 学 习 不 必 完 美 。 网 络 的 性 能 在 一 定 范围 


内 缓慢 下 降 。 网 络 甚至 可 以 通过 “ 粗 编码 ”而 更 加 健壮 (Hinton, 1981)， 这 里 每 个 特征 散布 在 几 
3. 表示 结构 。 传 统 的 AI 追求 思维 的 语 





Læ] 

为 模型 ， 我 们 发 现 符号 表示 具有 拟 语 言 结 构 。 
像 自然 语言 的 表示 一 样 ， 经 典 的 AI 表示 一 般 很 复杂 ， 它 由 简单 符号 以 系统 化 方式 建立 。 给 
定 有 限 的 符号 集 ， 有 意义 的 新 表达 式 可 能 由 符号 表达 式 的 组 合 性 以 及 语法 结构 和 语义 的 类 比 


表示 的 本 质 和 结构 是 神经 网 络 的 关键 问题 。 在 1988 年 3 月 《 Cognition》( 识 知 ) 杂 志 的 特刊 
E, Fodor 和 Pylyshyn 有 力 地 批评 了 神经 网 络 在 处 理 认 知 和 语言 中 的 计算 适宜 性 。 他 们 表示 
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# 
神经 网 络 处 在 两 个 基本 的 认 知 问题 的 错误 一 边 上 ; 心理 表示 的 性 质 和 心理 过 程 的 本 质 。 按 他 
们 的 观点 ， 对 于 传统 的 AI 而 言 : 

。 心理 表示 独特 地 表达 了 组 合 的 组 成 结构 和 组 合 语义 。 

。 心理 过 程 对 它们 操作 的 表示 的 组 合 结构 特别 敏感 。 

但 是 ， 这 不 是 对 神经 网 络 来 说 的 。 

总 起 来 说 ， 我 们 可 以 把 符号 化 AI 描述 成 是 算法 语言 和 数据 表示 的 由 项 向 下 的 形式 操作 。 
但 是 ， 可 以 把 神经 网 络 描述 成 是 具有 天 生 的 学 习 能 力 的 并 行 分 布 式 处 理 器 ， 通 常 以 由 底 向 上 
的 方式 运行 。 对 于 实现 认 知 任务 , 看 起 来 不 能 单独 使 用 基于 符号 AI 或 神经 网 络 寻 求 答 案 ， 
一 个 更 有 效 的 方法 是 集成 二 者 ， 建 立 结构 化 的 连接 论 者 模型 或 混合 系统 。 这 样 做 ,我们 能 组 
合 神 经 网 络 的 期 望 自 适应 性 、 和 鲁 棒 性 及 一 致 性 特征 以 及 符号 AI 固有 的 表示 、 推 理 及 通用 性 
特征 (Feldman,1992; Waltz,1997 ) 。 实 际 上 ， 基 于 这 个 目标 ， 已 开发 出 从 训练 过 的 神经 网 络 中 
抽取 规则 的 方法 。 除 了 理解 怎样 集成 符号 和 连接 论 者 方法 以 建立 智能 机 器 ， 从 神经 网 络 中 抽 
取 规 则 还 其 他 几 个 原因 (Andrews and Diederich, 1996) : 

。 用 户 接近 和 理解 神经 网 络 的 内 部 状态 有 助 于 确认 软件 系统 中 神经 网 络 组 件 的 正确 性 。 

。 通过 (1) 辨 别 没有 适当 表示 的 训练 数据 在 输入 空间 中 区 域 ， 或 (2) 指 明神 经 网 络 可 能 
无 法 推广 的 环境 ， 提 高 神经 网 络 的 泛 化 能 力 。 

。 发 现 用 于 数据 探索 (挖掘 ) 的 输入 数据 的 潜在 特征 。 

。 在 智能 机 器 开发 中 提供 穿越 连接 论 者 方法 和 符号 方法 的 边界 的 手段 。 

。 在 安全 性 为 必要 条 件 的 特殊 类 型 的 系统 中 满足 安全 的 严格 需要 。 


1.9 历史 注释 


我 们 用 一 些 历史 注释 中 结束 这 一 章 对 神经 网 络 的 介绍 。 

现代 的 神经 网 络 开 始 于 McCulloch and Pitts(1943) 的 开拓 性 工作 。McCulloch 被 培养 成 精神 
病 学 家 和 解剖 学 家 。 他 用 20 年 的 时 间 考 虑 神经 系统 中 关于 事件 的 表示 问题 。Pitts 是 数学 天 
才 ， 于 1942 年 加 入 McCulloch 的 工作 。 根 据 Rall(1990) McCulloch 和 Pitts 1943 年 写 的 论文 在 
一 个 神经 建 模 小 组 公布 时 ， 该 小 组 在 Rashevsky 领导 下 在 芝加哥 大 学 至 少 五 年 前 就 很 活跃 了 。 

在 他 们 的 经 典 论文 里 ，MeCulloch 和 Pitts 结合 了 神经 生理 学 和 数理 逻辑 的 研究 描述 了 一 
个 神经 网 络 的 逻辑 演算 。 他 们 的 神经 元 模型 假定 遵循 一 种 所 谓 “ 有 或 无 "( alLornone ) 规 则 。 
如 果 如 此 简单 的 神经 元 数目 足够 多 和 适当 设置 突 触 连 接 并 且 同 步 操作 ，MecCulloch 和 Pitts 证 
明 这 样 构成 的 网 络 原 则 上 可 以 计算 任何 可 计算 函数 。 这 是 一 个 有 重大 意义 的 结果 ， 有 了 它 就 
标志 着 神经 网 络 和 人 工 智 能 学 科 的 诞生 。 

McCulloch 和 Pitts 1943 年 的 论文 从 那 时 直到 现在 一 直 被 广泛 阅读 。 它 影响 了 von 
Neumann， 使 得 他 在 EDVAC(Electronic Discrete Variable Automatic Computer， 电 子 离散 变 元 自动 
计算 机 ) 中 ， 使 用 从 McCulloch 和 Pitts 的 神经 元 导出 的 理想 化 开关 延迟 元 件 ， 这 台 机 器 是 从 
ENIAC(Electronic Numerical Integrator and Computer， 电 子 数值 积分 器 和 计算 机 ) 发 展 而 来 的 
(Aspray and Burks, 1986), ENIAC 是 第 一 台 通 用 电子 计算 机 ， 从 1943 年 到 1946 年 在 宾 夕 法 尼 
亚 大 学 摩尔 电子 工程 学 院 建 成 。McCulloch-Pitts 的 形式 化 神经 网 络 理论 ， 在 von Neumann 1949 
年 在 Minois 大 学 所 作 的 四 个 报告 的 第 二 个 报告 中 成 为 主要 内 容 。 

1948 Œ, Wiener 的 名 著 《 Cyberneticss》( 控 制 论 ) 出 版 ， 为 控制 、 通 信和 统计 信号 处 理 描 述 





fF 25 





了 某 些 重要 概念 。1961 年 该 书 第 二 版 出 版 发 行 ， 添加 了 关于 学 习 和 自 组 织 的 新 材料 。 在 第 
二 版 的 第 2 章 中 ，Wiener 看 来 在 主题 方面 抓 住 了 统计 力学 的 物理 意义 ， 但 是 把 统计 力学 和 学 
习 系 统 连 系 起 来 获得 丰硕 成 果 ， 却 留 给 了 Hopfield( 在 30 多 年 以 后 )。 

神经 网 络 第 二 个 重要 发 展 是 在 1949 年 Hebb 的 书 《 The Organization of Behavior) (47 AAA 
学 ) 出 版 ， 他 在 书 中 第 一 次 清楚 说 明了 突 触 修正 的 生理 学 学 习 规则 。 特 别 是 ，Hebb 提出 人 脑 
的 连接 方式 在 机 体 学 习 不 同 功能 任务 时 是 连续 变化 的 ， 神 经 组 织 就 是 通过 这 种 变化 创建 起 来 
RY. Hebb 继承 了 Ramon y Caj 纪 早期 的 假设 并 引入 自己 现在 著名 的 学 习 假 说 ， 即 两 个 神经 元 
之 间 的 可 变 突 触 的 作用 被 突 触 两 端 神经 元 中 一 个 对 另 一 个 的 重复 的 激活 加 强 了 。Hebb 的 书 
在 心理 学 家 中 有 巨大 的 影响 ,但 遗憾 的 是 对 工程 界 影响 很 少 或 没有 影响 。 

Hebb 的 书 是 学 习 系 统 和 自 适 应 系统 的 计算 模型 发 展 的 灵感 源泉 。Rochester，Holland， 
Haibt and Duda 的 论文 (1956)， 也 许 是 用 计算 机 模拟 测试 以 Hebb 学 习 假说 为 基础 的 严格 公子 
化 的 神经 理论 的 第 一 次 尝试 ; 论文 报告 的 模拟 结果 表明 必须 加 上 抑制 理论 才能 实际 工作 。 同 
一 年 ，Uttey(1956) 演 示 了 带 有 可 修改 的 突 触 的 神经 网 络 ， 可 以 学 习 分 类 简单 的 二 值 模式 集 。 
Uttley 引入 了 所 谓 汇 漏 集成 和 点 火 神 经 元 (leaky integrate and fire neuron) ， 后 来 Caianiello( 1961) 
对 它 进 行 了 形式 化 分 析 。 在 再 较 晚 的 工作 中 ，Uttley(1979) 假 设 了 神经 系统 可 变 突 触 的 作用 
依赖 于 突 触 两 端 波 动 状态 的 统计 关系 ， 因 此 和 Shannon 的 信息 论 联系 起 来 。 

1952 年 Ashby 的 书 《4 Design for a Brain: The Origin of Adaptive Behavior》( 脑 的 设计 ， 自 适应 
行为 的 起 源 ) 出 版 ,今天 读 起 来 和 过 去 一 样 也 是 引人入胜 的 。 这 本 书 关注 的 是 基本 概念 ， 即 
自 适应 行为 不 是 于 与 生 俱 来 而 是 后 天 学 习 的 ， 通 过 学 习 动 物 ( 系 统 ) 的 行为 变 得 更 好 。 这 本 书 
强调 活 的 机 体 如 同 机 器 的 动态 方面 和 有 关 稳 定性 的 概念 。 

1954 年 Minsky 在 普林斯顿 大 学 写 了 “神经 网 络 ” 的 博士 论文 ,题目 是 “Theory of Neural- 
Analog Reinforcement Systems and Its Application to the Brain-Model Problem”. 1961 Œ Minsky 发 表 
了 早期 关于 AI 的 优秀 论文 “Steps Toward Artificial Intelligence”， 后 面 这 篇 文章 包括 了 有 关 现 在 
称 为 神经 网 络 内 容 的 一 大 节 。1967 年 Minsky Hh T< Computation: Finite and Infinite Machines) 
(计算 : 有 限 和 无 限 机 器 ) 这 本 书 。 它 是 第 一 本 以 书 的 形式 扩展 了 McCulloch 和 Pitts 1943 年 的 
结果 ， 并 把 它们 置 于 自动 机 理论 和 计算 理论 的 背景 中 。 

也 是 在 1954 Æ, Gabor 提出 了 非 线性 自 适应 滤波 器 的 思想 ， 他 是 早期 通信 理论 的 先驱 者 
之 一 和 全 息 照 相 术 的 发 明 者 。 他 接着 在 合作 者 的 帮助 下 致力 于 建立 这 样 的 机 器 ， 其 细节 描述 
在 Gabor et al.(1960) 中 。 通 过 把 随机 过 程 样 本 以 及 希望 机 器 产生 的 目标 函数 一 起 提供 给 机 器 
来 完成 学 习 。 

20 世纪 50 年 代 ，Taylor(1956) 开 始 研究 联想 记忆 。 接 着 Steinbuch(1961)3| AT JEH; 
这 个 和 矩阵 由 插 在 成 行 的 “感觉 "接收 器 和 "马达 "效应 器 之 间 的 开关 平面 网 络 构成 。 在 1969 年 ， 
Willshaw, Buneman 和 Longuet-Higgins 发 表 了 关于 非 全 息 照 相 术 的 联想 记忆 的 优秀 论文 。 这 篇 
文章 给 出 了 两 类 网 络 模型 : 实现 相关 和 抢 阵 的 简单 光学 系统 和 由 光学 记忆 提出 的 与 之 相关 的 神 
经 网 络 。 联 想 记 忆 早 期 发 展 的 其 他 重要 贡献 包括 Anderson ( 1972), Kohonen (1972) 和 Nakano 
(1972) 的 文章 ， 他 们 在 同一 年 在 外 积 学 习 规 则 的 基础 上 独立 地 引入 相关 和 矩阵 记忆 的 思想 。 

Von Neumann 是 20 世纪 前 50 年 的 科学 巨 逝 。 数 字 计 算 机 设计 的 基础 von Neumann 结构 为 
了 纪念 他 而 命名 的 。1955 年 耶鲁 大 学 邀请 他 在 1956 年 作 Silliman 报告 。 他 死 于 1957 年 ， 稍 
后 他 的 未 完成 的 Siliman 报告 手稿 出 版 成 书 : <The Computer and the Brain》( 计 算 机 和 人 脑 ， 
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1958)。 这 本 书 很 有 意思 ， 因 为 它 提示 了 如 果 von Neumann 不 死 他 会 做 什么 ;他 开始 意识 到 人 
脑 和 计算 机 的 巨大 差异 。 

神经 网 络 中 特别 关心 的 一 个 问题 是 利用 被 认为 不 可 靠 的 神经 元 部 件 构建 可 靠 的 神经 网 
络 。von Neumann(1956) 利 用 元 余 的 思想 解决 了 这 个 重要 的 问题 ， 这 种 思想 使 得 Winograd 和 
Cowan(1963) 建 议 在 神经 网 络 中 使 用 分 布 式 元 余 表示 。 他 们 证 明 大 量 的 元 件 怎 样 能 集体 表示 
增加 和 鲁 棒 性 和 并 行 性 的 单个 概念 。 

在 McCulloch 和 Pitts 的 经 典 论文 发 表 15 年 以 后 ，Rosenblatt(1958) 在 他 有 关 感 知 器 的 研究 
中 查 出 了 模式 识别 问题 的 新 方法 ， 一 种 新 的 有 监督 学 习 方法 。 所 谓 的 感知 器 收 伊 定理 使 
Rosenblatt 取得 巨大 的 成 功 。Rosenblatt( 1960b) 年 概述 了 感知 器 收敛 定理 的 第 一 个 证 明 ; 该 定 
理 的 证 明 也 出 现在 Novikoff(1963) 和 其 他 人 的 工作 中 。Widrow 和 Hoff 引进 了 最 小 均 方 (LMS) 算 
法 并 用 它 构成 了 Adaline(adaptive linear element， 自 适应 线性 元 件 )。 感 知 器 和 Adaline 的 区 别 
在 于 训练 过 程 。 最 早 的 可 训练 的 具有 多 个 自 适 应 元 件 的 分 层 神 经 网 络 之 一 是 由 Widrow 和 他 
的 学 生 提 出 的 Madaline( multiple-adaline) 结 构 (Widrow,1962) 。1967 年 Amari 把 随机 梯度 方法 用 
于 模式 分 类 。1965 年 Nilsson 出 版 《 Learning Machines》( 学 习 机 器 ) 一 书 ， 迄 今 为 止 仍 是 一 本 用 
超 平面 区 分 线性 可 分 模式 的 最 好 的 著作 。 在 20 世纪 60 年 代 感 知 器 的 经 典 时 期 ， 好 像 神经 网 
络 可 以 做 任何 事 。 但 是 ， 随 之 而 来 的 Minsky 和 Papert(1969) 的 书 ， 利 用 数学 证 明 单 层 感知 器 
所 能 计算 的 根本 局 限 。 在 有 关 多 层 感知 器 的 简短 一 节 中 ， 他 们 认为 没有 任何 理由 假定 单 层 感 
知 器 的 任何 局 限 可 以 在 多 层 的 情况 下 被 克服 。 

在 多 层 感知 器 的 设计 中 面临 一 个 重要 的 问题 就 是 信任 赋值 问题 ( 即 隐藏 神经 元 在 网 络 中 
的 信任 赋值 问题 )。Minsky(1961) 在 他 的 “增强 学 习 系统 的 信任 赋值 问题 "中 首次 使 用 了 “信任 


赋值" 术语。 在 60 年 代 未 ， 提 出 了 解决 感知 器 的 信任 赋值 问题 所 必需 的 大 多 数 的 思想 和 基本 





概念 ， 如 像 现 在 称 之 为 Hopfield 网 络 的 递归 (吸引 子 神经 ) 网 络 所 固有 的 许多 基本 思想 。 然 
而 ， 直 到 80 年 代 这 些 基本 问题 的 解 才 出 现 。 根 据 Cowan(1990) ， 十 多 年 的 这 种 推 延 主要 有 三 
个 原因 
。 一 个 原因 是 技术 性 的 一 一 没有 个 人 电脑 或 工作 站 作 实验 。 例 如 ， 当 时 Gabor 发 明了 
他 的 非 线 性 学 习 滤波 器 ， 而 他 的 研究 组 为 此 花 了 另外 六 年 多 的 时 间 用 模拟 装置 建立 
了 一 个 滤波 器 (Gabor, 1954; Gabor et al. , 1960)。 

。 男 外 的 原因 部 分 是 心理 上 的 ， 部 分 是 经 费 上 的 。Minsky 和 Papert 在 1969 年 的 专题 论 
文 当 然 不 鼓励 任何 人 开展 感知 器 的 研究 工作 或 一 些 机 构 去 支持 他 们 研究 。 

。 在 神经 网 络 和 栅 格 自 旋 之 间 的 类 比 还 未 成 熟 。 直 到 1975 年 Sherrington 和 Kirkpatrick 
才 发 明了 自 旋 玻 璃 网 模型 。 

在 70 年 代 这 些 因素 以 这 种 或 那 种 方式 阻碍 了 人 们 进一步 研究 神经 网 络 。 除 了 一 些 心 理 
学 和 神经 科学 方面 的 专家 之 外 ,许多 研究 人 员 在 那个 时 期 都 改变 了 研究 领域 。 确 实 只 有 屈指 
可 数 的 早期 开创 者 继续 神经 网 络 研究 。 从 工程 学 的 角度 ， 我 们 可 以 回 过 头 来 将 70 年 代 视 为 
神经 网 络 的 潜伏 期 。 

在 70 年 代 出 现 的 一 个 重要 活动 就 是 利用 竞争 学 习 的 自 组 织 映 射 。von der Malsburg(1973) 
完成 的 计算 机 模拟 工作 也 许 是 第 一 次 演示 了 自 组 织 。 在 人 脑 中 拓扑 有 序 映射 启发 下 ，1976 
年 Willshaw 和 von der Malsburg 发 表 了 第 一 篇 关于 自 组 织 映射 形成 的 论文 。 

在 80 年 代 神 经 网 络 的 理论 和 设计 主要 是 在 几 个 前 沿 方面 取得 了 成 绩 ， 随 之 神经 网 络 的 
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研究 工作 进入 了 恢复 期 。 

Grossberg(1980) ， 基 于 他 的 竞争 学 习 理 论 的 早期 工作 (Grossberg, 1972 ,1976a,b) ， 建 立 了 
一 个 新 的 自 组 织 原 则 ， 就 是 著名 的 自 适 应 共振 理论 (adaptive resonance theory, ART)。 基 本 上 
说 ， 这 个 理论 包括 一 个 由 底 向 上 的 识别 层 和 一 个 由 顶 向 下 的 产生 层 。 如 果 输 入 模式 和 已 学 习 
的 反馈 模式 匹配 ， 一 个 叫做 “ 自 适 应 共振 ”的 动态 状态 ( 即 神经 活动 的 放大 和 延长 ) 就 会 发 生 。 
这 个 前 向 / 反 向 映射 原则 已 由 其 他 的 研究 者 在 不 同 的 条 件 下 重新 发 现 。 

在 1982 Œ, Hopfield 用 能 量 函 数 的 思想 形成 一 种 了 解 具 有 对 称 突 触 连接 的 递归 网 络 所 执 
行 的 计算 的 新 方法 。 并 且 他 在 这 种 递归 网 络 和 统计 物理 中 使 用 的 sing 模型 之 间 建 立 了 同 构 。 
这 个 类 比 为 一 连 串 的 物理 理论 (和 物理 学 家 ) 进 入 到 神经 元 模型 铺 平 了 道路 ， 因 此 神经 网 络 的 
领域 变化 了 。 这 类 具有 反馈 的 特殊 神经 网 络 在 80 年 代 引 起 了 大 量 的 关注 ， 在 那个 时 期 产生 
了 著名 的 Hopfield 网 络 。 尽 管 Hopfield 网 络 可 能 不 是 真正 的 神经 生物 系统 模型 它们 包涵 的 
原理 ( 即 在 动态 的 稳定 网 络 中 存储 信息 的 原理 ) 是 极 深刻 的 。 事 实 上 ， 这 个 原理 可 以 追溯 到 许 
多 其 他 研究 者 的 开拓 性 工作 : 

e Cragg and Tamperley(1954,1955) 从 观察 得 出 ， 正 是 由 于 神经 元 能 被 “点 火 ” (激活 ) 或 

“不 点 火 “( 静 止 )， 所 以 在 一 个 栅 网 中 的 原子 可 以 使 它们 自 旋 指向 “上 ?或 “下 ”。 

* Cowan(1967) 引 和 了 ”sigmoid "激活 特征 和 一 个 神经 元 基于 logistic 函数 的 平滑 激活 条 件 。 
Grossberg( 1967,1968) 引 入 了 一 个 神经 元 的 加 性 模型 ， 涉 及 非 线 性 差分 /微分 方程 ， 并 
且 探 索 了 作为 短期 记忆 为 基础 的 模型 用 途 。 

Amari(1972) 独立 地 引 人 了 神经 元 的 加 性 模型 ， 并 用 它 研究 随机 连接 的 类 神经 元 的 元 
件 的 动态 行为 。 

。 Wilson, Cowan(1972) 推 导 了 包括 兴奋 和 抑制 模型 神经 元 的 空间 局 部 化 的 群体 动力 学 耦 
合 非 线性 微分 方程 。 

Little and Shaw(1975) 描 述 了 神经 元 激活 或 不 激活 的 概率 模型 ， 并 用 它 发 展 了 短期 记 
忆 理 论 。 

Anderson Silverstein, Ritz and Jones( 1977) #2 E & F Asi JX 2S ( brain-state-in-a-box , BSB) 模 型 ， 
由 一 个 耦合 非 线形 动力 学 的 简单 联想 网 络 组 成 。 

因此 毫 不 奇怪 ，1982 年 Hopfield 的 论文 发 表 后 引起 了 很 大 争论 。 不 过 ， 该 论文 第 一 次 使 
在 动态 的 稳定 网 络 中 存储 信息 的 原理 清楚 了 。Hopfiled 表明 了 他 对 从 统计 力学 自 旋 玻璃 模型 
检验 具有 对 称 连接 的 特殊 递归 网 络 富有 洞察 力 ， 对 称 性 设计 可 以 保证 收敛 到 一 个 稳定 的 条 
件 。1983 年 ，Cohen 和 Grossberg 建立 了 包括 时 间 连 续 Hopfield 网 络 作为 特例 的 评价 按 内 容 寻 
址 记忆 的 一 般 原 则 。 吸 引子 神经 网 络 的 一 个 与 众 不 同 的 特征 ， 是 以 自然 的 方式 证 明 自 己 处 于 
网 络 的 非 线性 动力 学 中 ， 用 这 种 方式 ， 时 间 是 学 习 的 重要 维 数 。 在 这 个 背景 下 Cohen- 
Grossberg 的 定理 非常 重要 。 

1982 年 另 一 个 重大 发 展 是 Kohonen 关于 使 用 一 维 或 二 维 格 网 结构 的 自 组 织 映射 研究 的 文 
章 , 这 在 某 些 方面 与 Willshaw 和 von der Malsburg 稍 早 的 工作 不 同 。 在 文献 中 Kohonen 工作 在 
分 析 和 应 用 方面 比 Willshaw 和 von der Malsburg 的 模型 得 到 了 更 多 的 注意 ,已 经 成 为 这 一 领域 
其 他 创新 的 评估 标准 。 

1983 年 Kirkpatrick, Gelatt #1 Vecchi 描述 了 解决 组 合 最 优化 的 问题 的 称 为 模拟 退火 的 新 
方法 。 模 拟 退 火 植 根 统计 力学 ， 是 基于 Metropolis et al. (1953) 在 计算 机 仿真 中 首先 使 用 的 一 
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种 简单 技术 。Ackley，Hinton and Sejnowski( 1985) 利 用 模拟 退火 的 思想 发 展 称 为 Boltzmann 机 的 
随机 机 器 ， 它 是 多 层 神经 网 络 的 第 一 个 成 功 实 现 。 虽 然 证 明 Boltzmann 机 的 学 习 算 法 没有 反 
向 传播 算法 的 计算 效率 高 ， 但 它 证 明了 Minsky and Papert(1969) 的 猜想 是 不 成 立 的 ， 打 破 了 
心理 障碍 。Boltzmann 机 也 为 Neal(1992) 随 后 的 sigmoid 信 度 网 络 的 发 展 作 了 铺垫 工作 。sigmoid 
信和 度 网 络 完成 了 两 件 事 : (1) 学 习 显 著 改 善 ; (2) 联 系 了 神经 网 络 和 信 度 网 络 。sigmoid 信和 度 网 
络 学 习性 能 的 进一步 提高 是 Saul，Jakkolla and Jordan(1996) 利 用 一 个 植 根 于 统计 力学 的 平均 
场 理 论 作 出 的 。 

Barto, Sutton 和 Anderson 一 篇 关于 增强 式 学 习 的 论文 发 表 于 1983 年 。 虽 然 他 们 不 是 第 一 
次 使 用 增强 式 学 习 ( 例 如 Minsky 在 他 1954 年 的 博士 论文 中 考虑 过 它 )， 但 这 篇 文章 引起 了 关 
于 增强 式 学 习 及 其 在 控制 中 应 用 的 极 大 兴趣 。 特 别 是 ， 他 们 证 明了 一 个 增强 式 学 习 系 统 可 以 
在 没有 帮助 教师 的 情况 下 学 习 平衡 倒立 摆 (broomstick， 即 车 上 立 的 杆 )。 学 习 系 统 仅 要求 当 杆 
对 竖 直 方向 倾斜 超过 一 定 角 度 或 车 到 达 轨 道 的 端点 时 发 出 失败 信号 。1996 年 Bertsekas 和 
Tsitsiklis 的 著作 《 Neuro-dynamic) (F128 - 动态 规划 ) 出 版 。 这 本 书 把 增强 式 和 Bellman 的 动态 规 
划 相 联系 ， 把 它 放 在 一 个 恰当 的 数学 基础 上 。 

1984 年 Braitenberg 的 书 《 Vehicles ; Experiments in Synthetic Psychology》( 工 具 : 综合 心理 学 
的 实验 ) 出 版 。 在 这 本 书 中 Braitenberg 提出 了 目标 导向 的 自 组 织 行为 原则 : 利用 公认 的 基本 
机 制 的 综合 而 非 由 顶 向 下 的 分 析 是 最 好 了 解 一 个 复杂 过 程 的 方法 。 在 科幻 小 说 的 形式 下 ， 
Braitenberg 通过 描述 各 种 具有 简单 内 部 结构 的 机 器 说 明了 这 个 重要 原则 。 他 对 这 样 一 个 主题 
直接 或 间接 研究 了 二 十 多 年 : 这 些 机 器 的 特性 和 它们 的 行为 受到 有 关 动 物 脑 的 事实 的 启迪 。 

1986 年 Rumelhart, Hinton 和 Williams 报告 了 反 向 传播 算法 的 发 展 。 同 一 年 ， 由 Rumelhar 和 
McClelland 编辑 的 著名 的 两 卷 集 著作 《 Parallel Distributed Processing: Explorations in the Microstructures 
of Cognition》( 并 行 分 布 式 处 理 : 认 知 微 结 构 的 探索 ) 出 版 。 后 一 本 书 在 反 向 传播 算法 的 使 用 
方面 产生 重大 影响 ， 它 已 成 为 最 通用 的 多 层 感 知 器 的 训练 算法 。 事 实 上 ， 反 向 传播 学 习 在 同 
一 时 间 在 其 他 两 个 地 方 被 独立 发 现 ( Parker, 1985; LeCun, 1985), E 80 年 代 中 期 发 现 反 向 传播 
算法 后 ， 获 悉 Harvard 大 学 的 Werbos 早 在 1974 年 8 月 的 博士 学 位 论文 已 经 描述 了 ; Werbos 的 
博士 论文 是 描述 有 效 的 反 转 模式 梯度 计算 的 第 一 篇 文献 ， 它 被 用 于 以 神经 网 络 作 为 特例 的 一 
般 网 络 模 型 。 反 向 传播 的 基本 思想 可 进一步 追溯 到 Bryson 和 Ho(1969) 的 书 《 Applied Optimal 
Corzro1》( 应 用 最 优 控制 )。 在 该 书 标题 为 “多 阶段 系统 ”的 2.2 节 中 ， 描 述 了 使 用 Lagrange 形式 
的 反 向 传播 推导 。 但 是 ， 最 终 的 分 析 得 出 反 向 传播 算法 的 许多 荣誉 属于 Rumelhart，Hinton 和 
Williams( 1986) ， 因 为 他 们 提出 了 它 在 机 器 学 习 中 的 应 用 并 且 演 示 了 它 怎样 工作 。 

1988 年 Linsker 描述 了 认 知 网 络 中 自 组 织 问 题 的 新 原理 (Linsker,1988a)。 这 个 原理 被 设计 
成 保持 有 关 输 入 活动 模式 的 最 大 信息 ， 以 这 样 的 约束 限制 突 触 连接 和 突 触动 态 范围 。 其 他 几 
位 视觉 研究 者 也 提出 了 相似 的 建议 。 但 是 ， 是 Linsker 使 用 植 根 于 信息 理论 的 抽象 概念 提出 
了 最 大 互信 息 (infomax) 原 理 。Linsker 的 文章 重新 激发 了 把 信息 理论 应 用 到 神经 网 络 中 的 兴 
趣 。 特 别 是 ，Bell and Sejnowski(1995) 所 作 的 信息 理论 对 育 信 号 源 分 离 问 题 的 应 用 已 经 促使 许 
多 研究 者 探索 用 于 求解 统称 为 盲 反 卷 积 的 很 大 一 类 问题 的 其 他 信息 理论 模型 。 

同样 在 1988 年 ，Broomhead 和 Lowe 描述 了 使 用 径 向 基 函 数 (radial basis function, RBF) 设 计 
多 层 前 馈 网 络 的 过 程 ，RBF 提供 了 多 层 感知 器 的 另 一 选择 。 径 向 基 函 数 的 基本 想法 至 少 追 淹 
到 Bashkirov, Braverman and Muchnik (1964) 首先 提出 的 势 函 数 方法 以 及 Aizerman, Braverman 
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and Rozonoer(1964a,b) 发 展 的 势 函 数理 论 。Duda 和 Hart(1973) 的 经 典 著 作 《 Pattern Classification 
and Scene Analysis》( 模 式 分 类 和 场景 分 析 ) 给 出 了 势 函 数 方 法 的 一 个 描述 。 不 过 ，Broomhead 
and Lowe 的 文章 导致 了 联系 神经 网 络 设 计 和 数值 分 析 的 中 重要 领域 以 及 线性 自 适应 滤波 器 的 
大 量 研究 工作 。1990 年 Poggio and Girosi(1990a) 利 用 Tikhonov 的 正则 化 理论 进一步 丰富 了 RBF 
网 络 理论 。 

1989 年 Mead KYK Analog VLSI and Neural Systems》( 模 拟 VLSI 和 神经 系统 ) 一 书 出 版 。 这 本 书 
把 从 神经 生物 学 和 VLSI 技术 吸取 的 概念 进行 了 不 寻常 的 融合 。 最 重要 的 是 ， 它 包括 Mead 和 他 
的 合作 者 写 的 关于 硅 视 网 膜 和 硅 耳 蜗 的 几 章 ， 这 些 都 是 Mead 创造 性 思维 的 活生生 的 例子 。 

在 20 世纪 90 年 代 早期 ，Vapnik 和 他 的 合作 者 发 明了 具有 强大 计算 能 力 的 一 种 有 监督 学 
习 网 络 称 为 支持 向 量 机 (support vector machine, SVM)， 用 于 解决 模式 识别 、 回 归 和 密度 估计 等 
问题 (Boser, Guyon and Vapnik ,1992; Cortes and Vapnik,1995; Vapnik, 1995,1998) 。 这 种 新 方法 是 
基于 有 限 样本 学 习 理论 的 结果 。 支 持 向 量 机 的 一 个 新 颖 的 特征 就 是 在 它们 的 设计 中 以 自然 的 
方式 包含 了 Vapnik-Chervonenkis(VC) 维 数 。VC 维 数 提供 了 神经 网 络 从 一 个 样本 集中 学 习 能 力 
的 一 种 度量 (Vapnik and Chervonenkis， 1971; Vapnik , 1982) 。 

现在 已 很 好 地 建立 了 混沌 是 构成 物理 现象 的 关键 方面 。 许 多 人 提出 了 一 个 问题 : 在 神经 
网 络 研究 中 混沌 起 关键 作用 吗 ?9 在 生物 环境 下 Freeman(1995) 相信 这 个 问题 的 答案 是 肯定 的 。 
根据 Freeman 的 看 法 ， 神 经 活动 的 模式 不 是 从 脑 外 部 强加 的 ， 而 是 从 内 部 构建 的 。 特 别 是 ， 
混沌 动力 学 对 神经 元 群体 的 内 部 和 它们 之 间 出 现 自 组 织 模式 需要 的 条 件 提供 了 进行 描述 的 一 
个 基础 。 

也 许 对 20 世纪 80 年 代 神 经 网 络 兴趣 的 复兴 最 有 影响 的 是 Hopfield 1982 年 的 文章 和 
Rumelhart 和 McLelland 1986 年 的 两 卷 书 ， 而 不 是 其 他 的 著作 。 神 经 网 络 从 McCulloch 和 Pitts 
的 早期 岁月 算 起 当然 已 走 过 了 很 长 一 段 路 。 确 实 它们 已 确立 了 它们 作为 植 根 于 神经 科学 、 心 
理学 、 数 学 、 物 理学 和 工程 的 交叉 学 科 的 地 位 。 无 需 袭 言 ， 现 在 它们 确立 了 这 样 的 地 位 并 将 
在 理论 、 设 计 和 应 用 上 继续 深入 。 


注释 和 参考 文献 


[1] 这 个 神经 网 络 的 定义 来 自 Aleksander and Morton (1990) 。 

[2] 神经 网 络 侧重 于 神经 建 模 、 认 知 和 神经 生理 学 方面 的 补充 材料 参看 Anderson (1995). 
有 关 脑 计算 方面 易 读 的 材料 可 参看 Churchland and Sejnowski (1992)。 有 关 神 经 机 制 和 人 
脑 的 更 详细 的 描述 可 参看 Kandel and Schwartz (1991)，Shepherd (1990 a,b )，Koch and 
Segev (1989), Kuffler et al. (1984) 和 Freeman (1975) 。 

[3] 关于 sigmoid 函数 和 相关 问题 全 面 叙述 可 参看 Menon et al. (1996)。 

[4] logistic 函数 或 更 精确 地 说 logistic 分 布 函 数 的 命名 ,来 自 见于 大 量 文献 的 深奥 的 “]ogistic 
增长 律 ”。 利 用 适当 的 度量 单位 ， 假 定 所 有 的 增长 过 程 可 表示 为 logistic 分 布 函数 


1 
F = 一 一 一 
(1) 1+ e”? 


其 中 上 代表 时 间 ，a，8 有 8 为 常数 。 但 是 结果 证 明 不 仅 是 logistic 分 布 ， 而 且 Gauss 分 布 和 
其 他 分 布 都 能 应 用 于 相同 的 数据 ， 取 得 一 样 或 更 好 的 拟 合 (Feller，1968)。 
[5] 根据 Kuffler et al. (1984), “HZH” (receptive field) 这 个 术语 最 早 由 Sherrington (1906) 4) 
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造 的 ， 并 被 Hartline (1940) 重 新 引入 。 在 视觉 系统 环境 下 ， 神 经 元 的 接受 域 是 指 视 网 膜 
曲面 上 限制 为 光 引 起 神经 元 放电 的 区 域 。 

[6] 看 来 权 值 共享 技术 最 早 在 Rumelhart et al. (1986b) 中 描述 。 

[7] 这 里 给 出 的 历史 注释 大 部 分 (但 不 是 全 部 ) 基 于 下 列 资料 ; (1)Saarinen et al.(1992) 的 文 
章 ; (2)Rall (1990) 的 章节 ; (3) Widrow and Lehr (1990) 的 文章 ; (4)Cowan (1990) 以 及 
Cowan and Sharp (1988) 的 文章 ; (5) Grossberg (1988c) 的 文章 ; (6) 关 于 神经 计算 的 两 卷 
(Anderson et al., 1990; Anderson and Rosenfeld, 1988); (7)Selfridge et al.(1988) 的 章 
节 ; (8) von Neumann 关于 计算 和 计算 机 理论 的 论文 集 (Aspray and Burks, 1986); (9) 
Arbib (1995 ) 编 辑 的 脑 理 论 和 神经 网 络 的 手册 ; (10)Russell and Norvig (1995) 的 第 1 2; 
(11)Taylor (1997) 的 文章 。 


习题 


神经 元 模型 
1.1 一 个 logistic 函数 的 例子 定义 为 


1 
g(r) = 1 + exp(— av) 


它 的 极限 值 为 0 和 1。 证 明 它 关 于 wv 的 导数 由 


a = ag(v)[1 - g(r) ] 


1.2 es sigmoid 函数 定义 为 


P= = anh 2) 


其 中 tanh 代表 双 曲 正切 。 这 第 二 个 sigmoid 函数 的 极限 值 为 -1 和 + 1。 证 明 p(v) 关 于 vw 的 导 
数 由 


(v) = 


de -4[1_w(o)] 





dv 2 
给 出 。 这 个 导数 在 原点 的 值 是 多 少 ? 假设 倾斜 参数 a 无 穷 大 ，qp(w) 的 结果 是 什么 形式 ? 
1.3 另外 一 个 奇 sigmoid 函数 是 代数 sigmoid: 
gC) = 14+ 0° 
它 的 极限 值 为 -1 和 +1。 证明 它 关于 v 的 导数 由 
dp _ @(v) 
dv T y 


给 出 。 这 个 导数 在 原点 的 值 是 多 少 ? 
1.4 FETA TEM: 


(i) ev) = FI. l _exp(- ©) de 


Gelo) = 2 tan" (v) 


-F 


a 
a 


的 答案 的 正确 性 。 


解释 为 什么 两 个 函数 都 满足 sigmoid 函数 的 要 求 。 怎 样 区 别 它们 ? 





(b) 若 a 允许 趋 于 0，qlv) 会 出 现 什么 情况 ? 
习题 1.6。 


1.7 关于 图 1-27 所 示 的 拟 线性 激活 函数 pg(v) 重 复 
调节 。 


X Xis X25 


1.8 一 个 神经 元 具有 问题 1.1 的 logistic 函数 定义 的 
激活 函数 oO), AP o 是 诱导 局 部 域 并 量 倾 斜 参 数 a 可 


> Xn 为 作用 于 神经 元 源 节点 的 输 
Mas, ,表示 偏 置 。 为 了 表示 方便 起 见 ， 我 们 将 吸收 
倾斜 参数 a 到 诱导 局 部 域 w， 写 成 


ev) = 
你 将 如 何 改变 输入 xis x2, 


1 
1 + exp(— v) 
结果 ? 证 明 你 的 回答 的 正确 性 。 


xn 产生 和 以 前 一 样 的 
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1.5 在 问题 1.1 至 问题 1.4 的 五 个 sigmoid 函数 中 哪些 是 累积 (概率 ) 分 布 函数 ” 证 明 你 
1.6 考虑 图 1-26 所 示 的 拟 线性 激活 函数 p(v)。 
(a) 写 出 p(v) 关 于 "的 函数 公式 。 





Y) 







bit--- 


0.5b 


-05a 0 0.5a 











图 1-26 
P(e) 








1.9 神经 元 j 从 其 他 四 个 神经 元 接受 输入 ， 它 们 的 
活动 性 级 别 为 10，- 20，4 和- 2。 神 经 元 j 的 每 个 突 触 


(a) 神 经 元 是 线性 的 。 
1.10 对 基于 logistic 函数 


的 神经 元 模型 重复 问题 1.9。 
1.11 


1 
g(r) = 1 + exp(- v) 


常 大 的 突 触 权 值 的 sigmoid 激活 函数 的 神经 元 )。 
网 络 结构 


(b) 证 明 线 性 神经 元 可 由 具有 很 小 突 触 权 值 的 sigmoid 神经 元 和 逼近 。 


写 出 由 这 个 网 络 定义 的 输入 输出 映射 。 
人 输出 映射 。 





1.14 图 1-28 所 描述 的 神经 网 络 没有 偏 置 。 假 设 第 一 隐 层 的 项 和 底 神 经 元 的 偏 置 分 别 
为 -1 和 +1， 第 二 隐 层 的 顶 和 底 神经 元 的 偏 置 分 别 为 + 1 和 -- 2。 写 出 由 这 个 网 络 定义 输入 





权 值 分 别 为 0.8，0.2，- 1.0 和 -0.9。 计 算 下 列 两 种 情况 下 神经 元 7 的 输出 : 
(b) 神 经 元 由 McCulloch-Pitts 模型 表示 。 
假设 神经 元 的 偏 置 为 0。 


1.13 (a) 图 1-28 表示 一 个 2-2-2-1 前 馈 网 络 的 信号 流 图 。 函 数 o(-) 表示 logistic 函数 。 


(b) 假 设 图 1-28 信号 流 图 的 输出 神经 元 运行 在 它 的 线性 区 域 。 写 出 由 这 个 网 络 定义 的 输 


图 1-27 


(a) 证 明神 经 元 的 McCulloch-Pitts 形式 模型 可 由 sigmoid 神经 元 和 逼近 ( 即 利用 具有 非 


1.12 一 个 全 连接 的 前 馈 网 络 具有 10 个 源 节 点 ，2 个 隐 层 ， 一 个 隐 层 有 4 个 神经 元 ， 另 
一 个 有 3 个 神经 元 ， 以 及 1 个 输出 神经 元 。 构 造 这 个 网 络 的 结构 图 。 


[ar] 























[5] 
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图 1-28 
输出 映射 的 新 形式 。 


1.15 考虑 一 个 多 层 前 馈 网 络 ， 它 所 有 的 神经 元 运行 在 它们 的 线性 区 域 。 证 明 这 样 的 网 
络 等 价 于 单 层 前 馈 网 络 的 结论 。 

1.16 构造 一 个 全 连接 的 递归 网 络 ， 它 具有 5 个 神 
经 元 ， 但 没有 自 反馈 。 

1.17 图 1-29 表示 两 个 神经 元 的 递归 网 络 信号 流 
图 。 写 出 定义 x (nz) 和 x,(n) 演 变 的 非 线 性 差分 方程 。 
这 两 个 变量 分 别 定义 顶部 和 底部 神经 元 的 输出 。 这 个 
方程 的 阶 是 多 少 ? 

1.18 图 1-30 表示 具有 自 反馈 的 两 个 神经 元 的 递 
归 网 络 信号 流 图 。 写 出 描述 系统 运行 的 两 个 一 阶 耦 合 
非 线性 差分 方程 组 。 





1.19 一 个 递归 网 络 具 有 3 个 源 节 点 、2 个 隐藏 神 图 1-29 
经 元 和 4 个 输出 神经 元 。 构 造 描述 这 样 一 个 网 络 的 结 
构图 。 
知识 表示 


1.20 一 个 有 用 的 预 处 理 形式 是 基于 由 差分 方程 (用 于 实数 值 数 据 ) 
y(n) = wiy(n ~ 1) + wy(n 一 2) +… + wyy(n — M) + v(n) 

描述 的 自 回 归 (AR) 模 型 ， 其 中 y(n) 是 模型 输出 ，v(n) 为 从 零 均值 和 预定 方差 的 白 品 声 过 程 
抽取 的 样本 ，w) ,za ,zw 是 AR 模型 的 系数 ， 而 M 为 模型 阶 数 。 证 明 利 用 这 个 模型 提供 两 
种 形式 的 几何 不 变性 : (a) 尺 度 大 小 ; (b) 时 间 平 移 。 在 神经 网 络 中 怎样 利用 这 两 种 不 变性 ? 

1.21 令 x 为 输入 向 量 ，s(a,x) 为 依赖 于 参数 a 的 作用 于 x 的 变换 算 子 。 它 满足 两 个 要 
K: 

e s(0,x)=x 

。 s(a,x) 关 于 a 可 微 

切 向 量 定义 为 偏 导数 2s(a,x)/aa(Simard et al. ，1992)。 

假设 x 代表 一 幅 图 像 ，a 是 旋转 参数 。 在 a 很 小 时 你 怎样 计算 切 向 量 ? 切 向 量 关 于 原 图 
像 的 旋转 是 局 部 不 变 的 ， 为 什么 ? 





对 于 神经 网 络 具有 首要 意义 的 性 质 是 网 络 能 从 环境 中 学 习 的 能 力 ， 并 通过 学 习 改 善 其 行 
为 。 对 行为 的 改善 是 随时 间 依 据 某 一 规定 的 度量 进行 的 。 神 经 网 络 通过 施加 于 它 的 突 触 权 值 
和 偏 置 水 平 的 调节 的 交互 过 程 来 学 习 它 的 环境 。 理 想 情况 下 ， 神 经 网 络 在 每 一 次 重复 学 习 过 
程 后 对 它 的 环境 便 有 更 多 的 了 解 。 

有 过 多 的 与 学习” 这 个 概念 相 联 系 的 行为 ， 以 至 不 能 以 精确 的 方式 对 其 定义 。 而 且 ， 学 
习 过 程 是 这 样 一 种 观点 问题 ， 使 得 在 对 这 个 术语 的 精确 定义 上 很 难 达 成 一 致 。 比 如 ， 心 理学 
家 眼中 的 学 习 与 课堂 中 的 学 习 是 截然 不 同 的 。 需 认识 我 们 的 特殊 兴趣 在 于 神经 网 络 ， 我 们 使 
用 一 个 从 Mendel and McClaren(1970) 修 改过 的 一 个 关于 学 习 的 定义 。 

我 们 在 神经 网 络 的 背景 中 定义 学 习 如 下 : 

学 习 是 一 个 过 程 ， 通 过 这 个 过 程 神经 网 络 的 自由 参数 在 其 说 入 的 环境 的 激励 过 程 之 下 得 
到 调节 。 学 习 的 类 型 由 参数 改变 的 方式 决定 。 

这 个 学 习 过 程 的 定义 隐 含 着 如 下 的 事实 : 

1. 神经 网 络 被 一 个 环境 所 激励 。 

2. 作为 这 个 激励 的 结果 ， 神 经 网 络 在 它 的 自由 参数 上 发 生变 化 。 

3. 由 于 神经 网 络 内 部 结构 的 改变 而 以 新 的 方式 响应 环境 。 

建议 解决 学 习 问题 的 一 个 恰当 定义 的 规则 集合 称 作 学 习 算 法 "1 。 就 像 人 们 预料 的 那样 ， 
对 于 神经 网 络 的 设计 没有 惟一 的 学 习 算法 。 然 而 ， 我 们 有 由 不 同学 习 算 法 表示 的 一 组 工具 ， 
每 一 个 有 它 自己 的 优势 。 基 本 上 ， 学 习 算 法 在 其 对 神经 元 的 突 触 权 值 的 调节 方式 各 不 相同 。 
要 考虑 的 另 一 方面 是 由 一 组 相互 连接 的 神经 元 组 成 神经 网 络 (学 习 机 器 ) 与 其 环境 联系 的 方 
式 。 从 后 一 个 方面 说 ， 我 们 提 到 学 习 范 倒是 指 神经 网 络 运行 于 其 中 的 环境 的 一 个 模型 。 


本 章 的 组 织 


本 章 由 四 个 相互 联系 的 部 分 组 成 。 第 一 部 分 包括 第 2.2 节 到 2.6 节 ， 我 们 讨论 五 个 基本 
的 学 习 算法 : 误差 - 修正 学 习 ， 基 于 记忆 的 学 习 ，Hebb 学 习 ， 竞 争 学 习 和 Boltzmann 学 习 。 
误差 修正 学 习 植 根 于 最 优 滤波 。 基 于 记忆 的 学 习 通 过 明确 地 记 住 训练 数据 来 进行 。Hebb 学 
习 和 竞争 学 习 都 是 受 了 神经 生物 学 上 的 考虑 的 启发 。Boltzmann 学 习 有 所 不 同 ， 因 为 它 是 建 
立 在 从 统计 学 力学 借 来 的 思想 基础 上 。 

本 章 的 第 二 部 分 探讨 学 习 范 例 。2.7 节 讨 论 信任 赋值 问题 ， 它 是 学 习 过 程 的 基础 。2.8 
节 和 2.9 节 概 述 两 个 基本 学 习 范 例 :(1) 有 教师 学 习 ，(2) 无 教师 学 习 。 

本 章 的 第 三 部 分 包括 2.10 节 到 2.12 节 ， 考 察 学 习 任务 、 记 忆 和 自 适应 的 问题 。 

本 章 的 最 后 部 分 包括 2.13 节 到 2.15 节 ， 处 理学 习 过 程 的 概率 和 统计 方面 。2.13 节 讨 论 
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偏 置 /方差 困境 。2.14 节 讨 论 基 于 VC 维 数 概念 的 统计 学 习 理论 ，VC 维 数 握 供 了 对 机 器 能 力 
的 一 个 测量 方法 。2.14 节 介 绍 另 一 个 重要 概念 : 可 能 近似 正确 (PAC) 学 习 ， 它 为 学 习 过 程 提 
供 一 个 保守 的 模型 。 

本 章 在 2.16 节 中 用 一 些 最 后 的 评述 作为 结束 。 
2.2 误差 修正 学 习 

为 了 说 明 第 一 条 学 习 规 则 ， 考 虑 如 图 2-1a 所 示 由 一 个 神经 元 构成 前 馈 神 经 网 络 输出 
层 的 惟一 计算 节点 的 简单 情况 。 神 经 元 & 被 一 层 或 多 层 隐 藏 神经 元 产生 的 信号 向 量 x(nn) 驱 
动 ， 这 些 隐 藏 神经 元 自身 由 作用 于 神经 网 络 的 源 节 点 (也 就 是 输入 层 ) 的 输入 向 量 驱动 。 参 数 
n 表示 离散 时 间 ， 或 者 更 确切 地 说 ， 是 调节 神经 元 k 的 突 触 权 值 的 交互 过 程 的 时 间 步 。 神 经 
元 的 输出 信号 由 yi(n) 表 示 。 这 个 描述 神经 网 络 惟一 输出 的 输出 信号 与 由 d,(n) 表 示 的 其 
望 响应 或 目标 输出 比较 。 由 此 产生 由 ei (nn) 表示 的 误差 信号 。 由 定义 ， 我们 有 

， e(n) = di(n)— y(n) (2.1) 
误差 信号 e(m) 驱 动 控 制 机 制 ， 其 目的 是 将 修正 调节 序列 作用 于 神经 元 不 的 突 触 权 值 。 修 正 
调节 能 够 以 一 步 步 逼 近 的 方式 使 输出 信号 y(n) 向 期 望 输出 d;(n) 靠 近 。 这 一 目标 通过 最 小 
化 代价 函数 或 性 能 指标 8B(n) 来 实现 。%(n) 借 助 误差 信号 e,(n) 定 义 如 下 : 


Eln) = Lln) (2.2) 


也 就 是 说 ， 罗 (m”) 是 误差 能 量 的 肯 时 值 。 这 种 对 神经 元 下 的 罕 触 权 值 步 步 逼近 的 调节 将 持续 
下 去 ， 直 到 系统 达到 稳定 状态 ( 即 突 触 权 值 基本 稳定 下 来 )。 这 时 ， 学 习 过 程 终止 。 
在 这 里 ， 描 述 的 学 习 过 程 显 然 应 被 称 为 误差 -修正 学 习 。 特 别 ， 对 代价 函数 8%(n) 的 最 
小 化 导致 了 通常 被 称 作 增 量规 则 或 Widrow-Hoff 规则 的 学 习 规 则 ， 规 则 的 命名 是 为 了 纪念 它 
的 发 明 者 (Widrow and Hoff, 1960). $ ws (n) 表 示 在 第 n 时 间 步 ， 被 信号 向 量 x(n) 的 w (n) 
分 量 激发 的 神经 元 的 突 触 权 值 。 根 据 增 量规 则 ， 在 第 n 时 间 步 作用 于 突 触 权 值 的 调节 量 
Aws(n) 定 义 如 下 : 
Aw,(n) = ne,(n)x;(n) (2.3) 
这 里 了 是 一 个 正 的 常量 ， 它 决定 学 习 过 程 中 从 一 步 到 另 一 步 时 的 学 习 率 。 所 以 ， 我 们 自然 而 
然 地 称 1 为 学 习 率 参数 。 换 言 之 ， 增 量规 则 可 以 表述 为 ; 
作用 于 神经 元 突 触 权 值 的 调节 量 正 比 于 本 次 学 习 中 误差 信号 与 突 触 的 输入 信号 的 乘积 。 
牢记 这 里 表述 的 增 量 规则 假定 误差 信号 是 直接 可 测量 的 。 为 了 这 样 的 测量 是 可 行 的 ， 我 
们 显然 需要 与 神经 元 k 直接 相连 的 外 部 源 提 供 期 望 响 应 。 换 言 之 ， 神 经 元 k 对 外 部 世界 是 
TRY, WE 2- la 所 示 。 从 该 图 中 还 可 以 看 到 ， 误 差 - 修正 学 习 实 际 上 带 有 局 部 性 质 。 这 
仅仅 是 说 由 增 量 规则 计算 的 突 触 调节 局 部 于 神经 元 大 周 围 。 
在 计算 突 触 调节 量 Aw, (n) 后 ， 突 触 权 值 zw 的 更 新 值 由 
wy(n +1) = wy(n) + Aw,(n) (2.4) 
Bi. KRE, wyn) 由 (aa+1) 可 以 分 别 被 视 为 突 触 权 值 wy 的 昌 值 和 新 值 。 从 计算 的 角 
E, RETEK: 
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wy(n) = z [ws(n + 1)] (2.5) 
这 里 z ”是 单元 - 延迟 操作 符 。 也 就 是 说 ，z ”表示 一 个 存储 元 件 。 

图 2- 1b 用 信号 流 图 表示 误差 - 修正 的 学 习 过 程 ， 其 焦点 集中 在 神经 元 大 周围 的 活动 。 
输入 信号 x, 和 神经 元 的 诱导 局 部 域 v 分 别称 作 神经 元 的 第 j 个 突 触 的 前 突 触 信号 和 后 突 
触 信号 。 从 图 2- 1b 看 出 误差 -修正 学 习 是 闭环 反馈 系统 的 一 个 例子 。 由 控制 论 我 们 知道 这 种 
系统 的 稳定 性 由 构成 系统 的 反馈 环 路 的 参数 决定 。 在 这 里 ， 我 们 仅 有 一 个 单一 反馈 环 路 ， 具 
有 特别 意义 的 参数 之 一 是 学 习 率 参数 mn。 因 此 ， 仔 细 选 取 | 以 取得 重复 学 习 过 程 的 稳定 性 或 
收敛 性 是 很 重要 的 。 对 ?的 选择 对 学 习 过 程 的 准确 性 及 其 他 方面 也 有 深刻 的 影响 。 简 言 之 ， 
学 习 率 参数 1 在 实际 决定 误差 - 修正 学 习性 能 时 起 着 关键 作用 。 
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b) 输 出 神经 元 信号 流 图 
图 2-1 误差 -修正 学 习 图 示 

误差 - 修正 学 习 将 在 第 3 章 和 第 4 章 详细 论述 ， 第 3 章 讨论 单 层 前 馈 网 络 ， 第 4 章 详细 
论述 多 层 前 馈 网 络 。 
2.3 基于 记忆 的 学 习 

在 基于 记忆 的 学 习 中 ， 所 有 (或 大 部 分 ) 以 往 的 经 验 被 显 式 地 存储 到 正确 分 类 的 输入 - 输 
HRA Ocd) KET, AE x 表示 输入 向 量 ，d; 表示 对 应 的 期 望 响 应 。 不 失 一 
般 性 ， 我 们 限制 期 望 响应 为 一 个 标量 。 例 如 ， 在 二 值 模式 分 类 中 ， 考 虑 有 两 个 分 别 表 示 为 @， 
MC, 的 类 别 /假设 。 在 这 个 例子 中 ， 期 望 响 应 d, 对 类 取 值 0( 或 - 1) ， 对 类 %, 取 值 1。 当 
需要 对 测试 向 量 x (以 前 未 见 过 ) 进 行 分 类 时 ， 算 法 通过 提取 并 分 析 x。 的 局 部 邻 域 中 的 训 


练 数据 进行 响应 。 
所 有 基于 记忆 的 学 习 算法 包括 两 个 重要 的 组 成 部 分 : 
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。 用 于 定义 测试 向 量 x 的 局 部 邻 域 的 准则 。 
。 用 于 x 的 局 部 邻 域 中 的 训练 实例 的 学 习 规则 。 
算法 随 这 两 个 组 成 部 分 的 不 同 而 不 同 。 
在 一 个 简单 而 有 效 的 称 作 最 近邻 规则 ”的 基于 记忆 的 学 习 类 型 中 ， 局 部 邻 域 被 定义 为 测 
试 向 量 x 的 直接 邻 域 的 训练 实例 。 特 别 ， 向 量 
Xv 和 [x ,Xo ,XN | (2.6) 
被 称 作 x 的 最 近邻 ， 如 果 
mind (Xi , Xx ) = d(X yw, Xe) (2.7) 
这 里 ，d(x; ,Xo ) 是 向 量 x; 和 x 的 欧 几 里 德 距离 。 与 最 短 距离 相关 联 的 类 别 ， 也 就 是 向 量 
xx 被 划分 的 类 别 。 这 个 规则 独立 于 产生 训练 实例 的 基本 分 布 。 
Cover and Hart(1967) 形 式 地 研究 了 作为 一 个 模式 分 类 工具 的 最 近邻 规则 。 在 那里 提出 的 
分 析 基 于 两 个 假设 : 
。 分 类 实例 (xi , di ) 按 照 实例 (x, aq) 的 联合 概率 分 布 是 独立 同 分 布 的 (iid)。 
。 样本 大 小 N 是 无 限 大 的 。 
在 这 两 个 假设 下 ， 可 以 证 明 ， 由 最 近邻 规则 引起 的 分 类 误差 概率 被 限制 在 贝 叶 斯 误差 概 
率 (也 就 是 所 有 判定 规则 中 的 最 小 误差 概率 ) 的 两 倍 以 上 。 贝 叶 斯 误差 概率 在 第 3 章 讨 论 。 在 
这 个 意义 上 ， 可 以 说 ,无限 大 小 的 训练 集中 有 一 半分 类 信息 包含 在 最 近邻 中 ， 这 是 令 人 惊奇 
的 结果 。 


最 近邻 分 类 器 的 一 个 变种 是 左 - 最 近邻 分 类 器 ， 它 操 0 0 
作 如 下 : 0 0 
+ 对 于 某 一 整数 上， 确定 与 测试 向 量 x 最 邻近 的 oO 
k 个 类 别 模式 。 pO gy 
。 将 xu 的 大 个 最 近邻 中 出 现 最 多 的 类 别 (假设 ) er 一人 于 
分 配给 x。( 即 用 多 数 表决 进行 分 类 )。 11 Li! 
这 样 ， -最 近邻 分 类 器 的 作用 就 像 一 个 平均 仪器 。 特 1! 
BIAS, StF k= 3, k- 最 近邻 分 类 器 鉴别 单个 的 例外 图 2.2 分 类 的 例外 
(outlier), WE 2-2 所 示 。 一 个 例外 是 一 个 观察 ， 这 个 ”虚线 圆 图 里面 的 区 域 包括 两 个 属于 分 类 1 
观察 对 于 我 们 感 兴趣 的 指定 模型 是 异常 大 。 的 点 和 一 个 来 自分 类 0 的 例外 。 点 4 对 


24 YB 4 应 于 测试 向 量 Xe。。 当 k=3, 上 -最 近邻 
在 第 5 BRM H+ HE AE SE E BE BH 分 类 器 给 点 d 指定 类 别 1， 即 使 它 与 那个 


网 络 的 基于 记忆 的 分 类 器 类 型 。 例外 离 得 最 近 
2.4 Hebb 学 习 

学 习 的 Hebb 假设 是 所 有 学 习 规则 中 最 悠久 最 著名 的 ; 它 是 为 了 纪念 神经 心理 学 家 Hebb 
(1949) 而 命名 的 。 下 面 一 段 引 自 Hebb 的 《行为 的 组 织 ) 一 书 (1949,p.62): 


当 细 胞 A 的 一 个 轴 突 足够 近 地 刺 激 细 胞 B 并 反复 或 持续 地 激励 它 时 ， 某 种 增长 过 程 或 
新 陈 代谢 变化 在 一 个 或 两 个 细胞 中 发 生 ， 这 使 得 A 作为 激励 B 的 细胞 中 的 一 个 的 效率 被 增 
大 。 
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Hebb 提出 将 这 个 变化 作为 联想 学 习 的 基础 (在 细胞 水 平 上 )， 其 结果 是 按 空 间 分 布 的 “神经 细 
胞 集合 ”的 活动 模式 的 持续 修改 。 

这 个 陈述 是 在 神经 生物 学 的 背景 中 做 出 的 。 我 们 可 以 将 之 扩充 并 重 述 为 二 分 规则 (Stent， 
1973; Changeux and Danchin, 1976): 

1. 如 果 在 突 触 (连接 ) 每 一 边 的 两 个 神经 元 被 同时 ( 即 同 步 ) 激 活 ， 那 么 那个 突 触 的 强度 
被 选择 性 地 增强 。 

2. 如 果 在 突 触 每 一 边 的 两 个 神经 元 被 异步 激活 ， 那 么 那个 突 触 被 选择 性 地 减弱 或 消除 。 

这 样 的 突 触 被 称 作 Hebb 突 触 ”。( 最 初 的 Hebb 规则 不 包括 第 二 部 分 )。 更 确切 地 说 ， 我 
们 定义 Hebb 突 触 为 这 样 的 一 个 突 触 ， 它 使 用 一 个 依赖 时 间 的 、 高 度 局 部 的 和 强烈 交互 的 机 
制 来 提高 突 触 效 率 作为 前 突 触 和 后 突 触 活动 间 的 相互 关系 的 一 个 函数 。 从 这 个 定义 ， 我 们 可 
以 得 出 下 面 标志 Hebb 突 触 特征 的 4 个 重要 机 制 ( 特 性 ): 

1. 时 间 依 赖 机 制 。 这 一 机 制 是 指 这 样 一 个 事实 ，Hebb 突 触 中 的 修改 取决 于 前 突 触 和 后 
突 触 信号 出 现 的 确切 时 间 。 

2. 局 部 机 制 。 突 触 在 其 本 质 上 是 传输 的 场所 ， 其 中 信息 - 承载 信号 (表示 了 前 突 触 和 后 
突 触 单元 中 正在 进行 的 活动 ) 处 于 时 空 的 邻近 。Hebb 突 触 利用 这 个 局 部 可 用 信息 产生 由 输入 
确定 的 局 部 突 触 修改 。 

3. 交互 机 制 。Hebb 突 触 中 改变 的 发 生 取 决 于 突 触 两 边 的 信号 。 也 就 是 说 ，Hebb 学 习 的 
方式 ， 在 我 们 无 法 从 这 两 个 活动 中 任意 一 个 自身 作出 预测 的 意义 上 说 ， 是 取决 于 前 突 触 和 后 
突 触 信号 间 的 “真正 交互 ”"。 注 意 这 个 依赖 或 交互 可 能 本 质 上 是 确定 性 或 随机 性 的 。 

4. 关联 或 相关 机 制 。 对 Hebb 学 习 假 设 的 解释 之 一 是 突 触 效 率 的 改变 条 件 为 前 后 突 触 信 
号 的 关联 。 于 是 ， 根 据 这 种 解释 ， 前 突 触 和 后 突 触 信号 的 同时 发 生 ( 有 一 个 短 的 时 间 间 隔 ) 足 
以 产生 对 突 触 的 修改 。 正 是 由 于 这 个 原因 ，Hebb 突 触 又 被 称 作 关联 突 触 。 在 对 Hebb 学 习 假 
设 的 另 一 种 解释 中 ， 我们 可 以 从 统计 学 的 角度 考虑 作为 Hebb 突 触 特 征 的 交互 机 制 。 特 别 ， 
前 突 触 和 后 突 触 信号 在 时 间 上 的 相关 被 认为 决定 着 突 触 的 变化 。 所 以 ，Hebb 突 触 也 被 称 作 
相关 突 触 。 相 关 确 实 是 学 习 的 基础 (Eggenrmont,1990)。 


突 触 的 增强 和 抑制 


这 里 表述 的 Hebb 突 触 定义 不 包括 那些 可 能 导致 连接 着 一 对 神经 元 的 突 触 减弱 的 附加 过 
程 。 确 实 ， 我 们 可 以 通过 认识 正 相 关 活动 导致 突 触 增强 和 非 相 关 或 负 相关 活动 导致 突 触 减弱 
来 推广 Hebb 修改 的 概念 (Stent,1973)。 突 触 抑制 也 可 以 是 非 交 互 类 型 的 。 特 别 是 ， 突 触 减弱 
的 交互 条 件 可 能 仅仅 是 前 突 触 或 后 突 触 活动 的 不 一 致 。 

我 们 更 进一步 ， 将 突 触 修改 分 为 Hebb 式 、 反 - Hebb 式 和 非 - Hebb A (Palm, 1982). tÈ 
照 这 种 划分 ，Hebb 突 触 的 强度 因为 正 相 关 的 前 突 触 和 后 突 触 信号 而 增加 ， 以 及 当 信 和 号 或 者 
是 不 相关 或 者 是 负 相 关 的 而 降低 强度 。 相 反 ， 反 - Hebb 突 触 由 正 相 关 的 前 突 触 和 后 突 触 信 
号 而 减弱 ， 因 负 相 关 的 信号 而 增强 。 然 而 ， 在 Hebb 突 触 和 反 - Hebb 突 触 两 者 中 ， 对 突 触 效 
率 的 修改 依赖 于 在 本 质 上 是 依赖 时 间 的 、 高 度 局 部 的 和 强烈 交互 的 机 制 。 在 那 种 意义 下 ， 反 
Hebb 突 触 的 性 质 仍 然 是 Hebb 式 的 ， 尽 管 不 是 在 功能 上 。 另 一 方面 ， 非 - Hebb 突 触 不 包含 
Hebb 机 制 中 的 任何 一 种 。 
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Hebb 修改 的 数学 模型 


HTAR AREH Hebb 学 习 ， 考 虑 神经 元 & 的 一 个 突 触 权 值 wy, DHA x; My, K 
示 前 突 触 和 后 突 触 信和 号。 在 时 间 步 n 用 于 突 触 权 值 wy 的 调整 用 一 般 化 形式 如 下 : 

Aw,(n) = F(y(n),x(n)) (2.8) 
表示 ， 其 中 FO, ) 是 后 突 触 和 前 突 触 信号 的 函数 。 信 号 x(n) Aly, (ABE BER 
数 的 。 公 式 (2.8) 人 允许 有 多 种 形式 ， 所 有 这 些 形 式 都 称 为 是 Hebb 形式 。 下 面 ， 我 们 考虑 两 种 

Hebb 假设 ”Hebb 学 习 的 最 简单 形式 描述 为 

Aw,;(n) = ny,(n)x;(n) (2.9) 
其 中 是 决定 学 习 率 的 正 值 常量 。 式 (2.9) l 
清楚 地 强调 了 Hebb 突 触 的 相关 性 质 。 它 
有 时 被 称 作 活 动产 生 规 则 。 图 2-3 PEW 
的 曲线 显示 式 (2.9) 中 改变 量 Aw, 随 输 出 
信号 (后 突 触 活动 ) 和 改变 的 图 形 表示 。 从 
这 个 表示 中 ,我们 看 出 重复 使 用 输入 信号 协 方差 假设 
(前 突 触 活动 )x 将 导致 的 mw 增长 以 及 由 此 平衡 点 。 后 突 触 活动 
引发 的 指数 增长 ， 这 将 使 突 触 连 接 进入 饱 
和 状态 。 这 时 ， 没 有 任何 信息 存储 在 突 触 
中 并 且 失 去 选择 性 。 

协 方 差 假 设 FEAR Hebb 假设 限制 的 
途径 之 一 是 使 用 Sejnowski(1977a,b) 引 入 的 
协 方差 假设 。 在 这 个 假设 里 ， 式 (2.9) 中 前 图 2-3 Hebb 假设 和 协 方差 假设 的 图 示 
突 触 和 后 突 触 信号 分 别 用 前 突 触 和 后 突 触 
信号 与 它们 各 自 的 在 一 定时 间 间 隔 上 的 期 望 均值 的 偏 移 量 所 代替 。 令 志和 7 分 别 表 示 前 突 触 x 
和 后 突 触 信号 y 的 时 间 -均值 。 按 照 协 方差 假设 ， 作 用 于 突 触 权 值 wi 的 调整 定义 为 

Aw, = n(x; — ¥)(y% — 7) (2.10) 
其 中 站 是 学 习 率 参数 。* My BHEARR kA ee A, ES fo A E AA 
特别 ， 协 方差 假设 考虑 了 下 述 方面 : 

。 收敛 于 非 平 凡 状 态 ， 当 x; =x My, =7 时 到 达 。 

。 对 突 触 加 强 ( 即 增加 突 触 强度 ) 和 突 触 搞 制 ( 即 降低 突 触 强度 ) 两 者 的 预测 。 

图 2-3 说 明 Hebb 假设 和 协 方 差 假 设 之 间 的 差别 。 在 两 种 情况 下 ，Awi 对 y, 的 依赖 是 线 
性 的 ; 然而 ， 在 Hebb 假设 中 与 y, 轴 的 相交 是 在 原点 ， 而 在 协 方差 假设 中 是 在 y =7 处 。 

我 们 从 式 (2.10) 得 出 如 下 重要 观察 : 

1. 如 果 有 足够 的 前 突 触 和 后 突 触 活动 程度 ， 也 就 是 同时 满足 条 件 x > 地 和 加 > 7yY7， 则 突 
触 权 值 ws 得 到 加 强 。 

2. 如 果 至 少 满足 下 条 件 任 意 之 一 ， 则 突 触 权 值 被 减弱 : 

。 在 缺乏 足够 的 后 突 触 激 活 ( 即 y, <7) 的 条 件 下 前 突 触 激活 ( 即 x, >g) 






~ Hebb (Hit 
Aw, 


-n(x -Ty 


最 大 抑制 点 
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。 在 缺乏 足够 的 前 突 触 激活 ( 即 x <a) RETER y > 7) 0 

这 种 行为 可 以 被 认为 是 输入 模式 间 时 间 竞 争 的 一 种 形式 。 

在 称 作 海马 区 的 脑 区 域 提供 了 对 Hebb 学 习 有 力 的 生理 学 证 据 "。 海 马 区 在 学 习 或 记忆 
的 某 些 方面 起 着 重要 作用 ， 这 种 生理 学 证 据 使 得 Hebb 学 习 更 具 吸 引力 。 

2.5 竞争 学 习 
顾名思义 ， 在 竞争 学 习 生 中， 神经 网 络 中 的 输出 神经 元 彼此 通过 竞争 来 成 为 活跃 的 (点 
火 )。 在 基于 Hebb 学 习 的 神经 元 网 络 里 ， 若 二 输出 神经 元 可 能 同时 处 于 激活 状态 ， 而 在 竞争 
学 习 里 ， 在 任意 时 刻 只 有 一 个 输出 神经 元 是 激活 的 。 正 是 这 个 特性 使 竞争 学 习 高 度 适 合 于 发 
现 统计 上 的 突出 特征 ， 这 些 特征 可 以 用 来 分 类 输入 模式 的 集合 。 
对 于 竞争 学 习 规 则 ， 有 三 个 基本 元 素 (Rumelhar and Zipser, 1985) : 
。 一 个 神经 元 集合 ， 这 些 神 经 元 除了 一 些 随机 分 布 的 突 触 权 值 之 外 是 完全 相同 的 ， 并 
且 由 于 突 触 权 值 的 不 同 而 对 一 个 给 定 的 输入 模式 集合 有 不 同 的 响应 。 

。 对 每 个 神经 元 的 强度 加 上 的 限制 。 

。 允许 神经 元 为 响应 一 个 给 定 输 和 人 子 集 的 权利 而 竞争 的 机 制 ， 从 而 使 得 每 次 只 有 一 个 
输出 神经 元 或 者 每 组 只 有 一 个 神经 元 是 激活 的 ( 即 “ 开 ”")。 竞 争 获胜 神经 元 被 称 为 胜 
者 全 得 (winner-takes-al) 神 经 元 。 

因此 ， 网 络 的 神经 元 个 体 学 会 专门 辨别 相似 模式 的 总 体 ; 这 样 做 的 结果 ， 它 们 成 为 不 同 
类 别 输入 模式 的 特征 探测 器 。 

在 最 简单 的 竞争 学 习 形式 中 ， 神 经 网 络 有 单一 的 一 层 
输出 神经 元 ， 其 中 的 每 一 个 都 与 输入 节点 完全 连接 。 网 络 
可 以 包含 神经 元 的 反馈 连接 ， 如 图 2-4 所 示 。 在 这 里 描绘 
的 网 络 结构 中 ,反馈 连接 执行 侧 向 抑制 中 ， 每 个 神经 元 都 
试图 抑制 与 其 侧 向 连接 的 神经 元 。 相 反 ， 图 2-4 的 网 络 结 
构 中 的 所 有 前 馈 突 触 连 接 都 是 激活 的 (兴奋 的 )。 

对 于 一 个 要 想 成 为 获胜 神经 元 的 神经 元 上， 对 于 指定 
输入 模式 x 的 诱导 局 部 域 v 必需 是 网 络 结构 中 所 有 神经 
元 中 最 大 的 。 获 胜 神经 元 的 输出 信号 y 被 置 为 1; 竞争 ”图 2-4 一 个 简单 竞争 学 习 网 络 


败 的 所 有 神经 元 的 输出 信号 被 置 为 0。 这 样 我们 有 的 结构 图 ， 它 具有 从 源 节点 到 神 
K 神经 元 的 输出 信号 经 元 的 前 馈 (兴奋 的 ) 连 接 和 神经 


ne {h 和 如果 v > 包 对 于 所 有 jj Ak a y 元 之 间 的 侧 向 (抑制 的 ) 连 接 ( 侧 向 
0， 否则 连接 由 空心 箭头 标示 出 ) 
其 中 ， 诱 导 局 部 域 n 表示 结合 所 有 到 达 神 经 元 的 前 向 
和 反馈 输入 的 动作 。 

令 ws 表示 连接 输入 节点 j 到 神经 元 的 突 触 权 值 。 假 定 每 个 神经 元 被 分 配 (allotted) 固定 
量 的 突 触 权 值 ( 即 所 有 突 触 权 值 都 是 正 的 )， 权 值 分 布 在 它 的 输入 节点 之 中 ; 也 就 是 

Swys = 1， 对 于 所 有 (2.12) 

然后 神经 元 通过 将 突 触 权 值 从 它 的 不 活路 输入 移 向 活路 输入 来 进行 学 习 。 如 果 神 经 元 对 一 个 
特定 输入 模式 不 响应 ， 那 么 没有 学 习 发 生 在 那个 神经 元 上 。 如 果 一 个 特定 神经 元 赢得 了 竞 
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争 ， 这 个 神经 元 的 每 个 输入 节点 以 一 定 比例 释放 它 的 突 触 权 值 ， 释 放 的 权 值 然后 平均 分 布 到 
活跃 输 入 节点 上 。 按 照 标准 的 竞争 学 习 规 则 ， 作 用 于 突 触 权 值 wi 的 改变 量 Aw 定义 为 
A -人 ,如 果 神 经 元 有 竞争 成 功 
ey = 0 ,如 果 神 经 元 竞争 失败 
其 中 是 学 习 率 参数 。 这 个 规则 具有 将 获胜 神经 元 的 突 触 权 值 向 量 w, 向 输入 模式 x 移动 
的 整体 效果 。 

我 们 可 以 使 用 图 2-5 中 描绘 的 几何 类 比 来 说 明 竞 争 学 习 的 本 质 (Rumelhart and Zipser， 
1985) 。 假 定 每 个 输入 模式 (向 量 )x 具有 某 一 常量 欧 几 里 德 长 度 ， 使 得 我 们 可 以 将 它 看 作 是 
N - 维 单位 球 上 的 一 个 点 ， 其 中 N 是 输入 节点 的 数目 。NN 也 表示 每 个 突 触 权 值 向 量 w, 的 维 
数 。 进 一 步 假定 网 络 中 所 由 神经 元 都 被 限定 具有 相等 的 欧 几 里 德 长 度 ( 范 数 )， 表 示 如 下 : 

Dwy = 1, 对 所 有 (2.14) 
当 突 触 权 值 被 适当 设 定 ， 它 们 就 成 为 落 和 人 同一 N- 维 单位 球 的 一 组 向 量 。 在 图 2- 5a 中 我 们 
显示 了 三 个 用 点 表示 的 刺激 模式 的 自然 分 组 ( 徐 )。 这 个 图 也 包括 一 个 可 能 的 网 络 初始 状态 (用 
又 表示 )， 它 可 能 存在 于 学 习 之 前 。 图 2- 5b 显示 网 络 作为 使 用 竞争 学 习 结 果 的 一 个 典型 的 终止 
状态 。 特 别 ， 每 个 输入 神经 元 通过 将 其 突 触 权 值 移 向 秘 的 重心 而 发 现 这 以 输入 模式 的 篮 
(Rumelhart and Zipser, 1985; Heriz et al. ,1991)。 这 个 图 说 明了 神经 网 络 通过 竞争 学 习 进 行 聚 类 的 
能 力 。 然 而 ， 为 了 这 一 功能 能 以 “稳定 的 "方式 执行 ， 开 始 时 输入 模式 必需 落 和 人 充分 分 离 的 分 组 
中 。 和 否则 ， 网 络 可 能 不 稳定 ， 因 为 它 将 不 再 以 同样 的 输出 神经 元 响应 给 定 的 输入 模式 。 


ASS 


(2.13) 





图 2-5 竞争 学 习 过 程 的 几何 解释 ， 点 代表 输入 向 量 ， 
又 代表 3 个 输出 神经 元 的 突 触 权 值 向 量 
a) 网 络 的 初始 状态 b) 网 络 的 终止 状态 


2.6 Boltzmann 学 习 


为 了 纪念 Ludwig Boltzmann 而 命名 的 Boltzmann 学 习 规则 是 一 个 从 植 根 于 统计 力学 中 的 思 
想 推导 得 出 的 随机 学 习 算 法 "] 。 基 于 Boltzmann 学 习 规则 设计 的 神经 元 网 络 称 作 Boltzmann 机 
(Ackley et al. ,1985; Hinton and Sejnowski,1986) 。 

在 Boltzmann 机 中 ， 神 经 元 构成 递归 结构 ， 并 以 二 值 方式 运作 ， 因 为 ， 例 如 它们 要 人 么 处 
于 用 + 1 表示 的 “ 开 " 状 态 ， 要 么 处 于 用 - 1 表示 的 “ 关 ” 状 态 。Boltamann HL eH AEE BA ENR 
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征 ， 能 量 函数 的 值 由 机 器 的 个 体 神经 元 占据 的 特定 状态 所 决定 ， 表 示 成 
E=-4 > Sees (2.15) 

其 中 x, ERZI ORD, w 是 连接 神经 元 ) 到 神经 元 上 的 突 触 权 值 。) 的 事实 仅仅 意味 

着 机 器 中 没有 一 个 神经 元 有 白 反 馈 。 机 器 的 运作 是 通过 在 学 习 过 程 某 一 步 随机 地 选择 一 个 神 

经 元 (例如 神经 元 h) ， 然 后 在 某 一 温度 7 以 概率 

(2.16) 





1 
Pla >- a) = expl- AE,/T) 


将 神经 元 k MRE x, 反 转 到 状态 - x HOP AR, 是 由 这 样 的 反 转 所 导致 的 能 量 改变 ( 即 机 器 
能 量 函 数 的 改变 量 )。 注 意 ，7 并 非 是 物理 温度 ， 而 是 第 1 章 解 释 的 伪 温 度 。 如 这 一 规则 被 
反复 使 用 ， 机 器 将 达到 热平衡 。 

Boltzmann 机 的 神经 元 分 为 两 类 功能 组 : 可 见 的 和 隐藏 的 。 可 见 的 神经 元 提供 网 络 和 它 
在 其 中 运作 的 环境 间 的 接口 ， 而 隐藏 神经 元 总 是 自由 运作 。 有 两 种 运作 模式 要 加 以 考虑 : 

。 钳制 条 件 ， 在 这 种 情形 下 可 见 神经 元 都 被 钳制 到 由 环境 决定 的 特定 状态 。 

。 自由 运行 条 件 ， 在 这 种 情形 下 所 有 神经 元 (可 见 的 和 隐藏 的 ) 都 允许 自由 运作 。 

S pi 表示 网 络 在 其 钳制 条 件 下 神经 元 j 和 的 状态 间 的 相关 量 。 今 pj 表示 网 络 在 其 自 
由 运作 条 件 下 神经 元 j AA 的 状态 间 的 相关 量 。 两 种 相关 量 都 是 当 机 器 处 于 热平衡 时 的 所 有 
可 能 状态 的 平均 。 然 后 ， 根 据 Boltzmann 学 习 规 则 ， 作 用 于 从 神经 元 j 到 神经 元 的 突 触 权 
值 的 改变 量 由 

Aw, = (ph — 0y)» jk (2.17) 

定义 (Hinton and Sejnowski,1986)， 其 中 是 学 习 率 参数 。 注 意 pi 和 ps 的 值 都 在 -1 和 +1 范 
围 内 。 

第 11 章 给 出 对 统计 力学 的 简单 回顾 ; 在 那 一 章 ， 我 们 还 要 详尽 讨论 Boltzmann 机 和 其 他 
随机 机 器 。 


2.7 信任 赋值 问题 


当 研究 用 于 分 布 式 系统 的 学 习 算 法 时 ， 考 虑 信任 赋值 (credit assignment), (Minsky, 1961) 
的 问题 是 有 益处 的 。 基 本 上 ， 信任 赋值 问题 是 将 导致 整体 输出 的 信任 和 责任 分 配给 每 一 个 由 
学 习 机 器 作出 的 内 部 决策 及 那些 对 整体 输出 起 作用 的 决策 的 问题 。( 信 任 赋值 问题 也 被 称 作 
装载 问题 ， 即 将 一 组 给 定 的 训练 数据 “装载 "给 网 络 的 自由 参数 。) 

在 很 多 情形 下 ， 输 出 对 内 部 决策 的 依赖 由 学 习 机 器 采取 的 一 系列 动作 所 调节 。 换 句 话 
说 ， 内 部 决策 影响 采取 哪些 动作 ， 然 后 这 些 动作 而 不 是 内 部 决策 直接 影响 整体 输出 。 在 这 种 
情形 下 ， 我 们 可 将 信任 赋值 问题 分 解 为 两 个 子 问题 (Sutton 1984): 

1. 对 输出 到 动作 的 信任 赋值 。 这 被 称 为 时 间 信 任 赋 值 (temporal credit-assignment) 问题 ， 
因为 它 涉及 应 获得 信任 的 动作 被 实际 采取 的 时 刻 。 

2. 对 动作 到 内 部 决策 的 信任 赋值 。 这 被 称 为 结构 信任 赋值 (structural credit-assignment ) | 可 
题 ， 因 为 它 涉及 对 系统 生成 动作 的 内 部 结构 进行 信任 赋值 。 

在 多 成 分 学 习 机 器 中 ， 当 为 了 提高 整个 系统 的 性 能 我 们 必须 精确 判定 系统 的 哪个 特定 成 
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分 应 该 改变 它 的 行为 及 作 何等 程度 的 改变 时 ， 这 是 和 结构 信任 赋值 问题 相关 的 。 另 一 方面 ， 
当 学 习 机 器 采 取 很 多 动作 而 导致 某 些 输 出 并 且 我 们 必须 判定 这 些 动作 中 有 哪些 应 对 输出 负责 
时 ， 这 是 和 时 间 信 任 赋值 问题 相关 的 。 时 间 和 结构 信任 赋值 相 结 合 的 问题 对 于 任何 试图 在 涉 
及 时 间 扩 展 行为 的 情况 下 提高 其 性 能 的 分 布 式 学 习 系 统 来 说 都 是 存在 的 (Williams,1988 ) 。 

例如 ， 当 误差 -修正 学 习 被 用 于 多 层 前 馈 神经 元 网 络 时 ， 信 任 赋值 问题 就 出 现 了 。 在 这 
样 的 网 络 里 ， 每 个 隐 神 经 元 的 运作 像 每 个 输出 神经 元 的 运作 一 样 ， 对 于 网 络 在 一 个 感 兴趣 的 
学 习 任 务 上 正确 的 整体 运作 都 是 重要 的 。 也 就 是 说 ， 为 了 解决 所 规定 的 任务 ， 网 络 必 须 通过 
误差 - 修正 学 习 的 规范 给 它 的 神经 元 赋予 一 定 的 行为 方式 。 在 这 种 背景 下 ， 考 虑 图 2- la Hi 
述 的 情形 。 由 于 输出 神经 元 对 外 界 是 可 见 的 ， 就 可 能 给 这 个 神经 元 提供 一 个 期 望 响应 。 
就 输出 神经 元 而 言 ， 根 据 误差 -修正 学 习 来 调节 输出 神经 元 的 突 触 权 值 是 一 件 轻而易举 的 事 
情 ， 正 如 2.2 节 所 概括 的 那样 。 但 是 当 误差 - 修正 学 习 过 程 用 于 调节 隐藏 神经 元 的 每 个 突 触 
权 值 时 ， 我 们 如 何 对 这 些 神经 元 动作 的 信任 或 责任 赋值 呢 ? 对 于 这 个 基本 问题 的 回答 需要 更 
详尽 的 考虑 ; 它 在 第 4 章 给 出 ， 那 里 描述 了 设计 多 层 前 馈 神 经 网 络 的 算法 细节 。 


2.8 有 教师 学 习 


现在 让 我 们 把 注意 力 转向 学 习 范例 。 我 们 首先 讨论 有 教师 学 习 ， 也 称 为 有 监督 学 习 。 图 
2-6 说 明 这 种 学 习 方 式 的 方 框图 。 从 概念 上 讲 ， 我 们 可 以 认为 教师 具有 对 周围 环境 的 知识 
(这 种 类 型 的 知识 的 形式 就 是 一 系列 的 输入 - 输出 事例 )。 然 而 感 兴趣 的 神经 网 络 对 这 种 环境 
一 无 所 知 。 现 在 我 们 假设 教师 和 神经 网 描述 环境 状 
络 同时 要 对 从 周围 环境 中 抽取 出 来 的 训 态 的 向 量 
练 向 量 ( 即 例子 ) 作 出 判断 ， 教 师 可 以 根 
据 自身 掌握 的 一 些 知识 为 神经 网 络 提供 
对 训练 样本 的 期 望 响 应 。 期 望 响 应 一 般 | ab 
都 代表 着 神经 网 络 完成 的 最 优 动作 。 神 
经 网 络 的 参数 可 以 在 训练 向 量 和 误差 信 
号 的 综合 影响 下 进行 调整 。 误 差 信号 可 
以 定义 为 神经 网 络 实际 响应 与 预期 响应 
之 差 。 这 种 调整 可 以 逐步 而 又 反复 地 进 
行 ， 其 最 终 目的 就 是 要 让 神经 网 络 模拟 
教师 ; 在 某 种 统计 的 意义 下 ， 可 以 认为 图 2-6 有 教师 学 习 方 框图 
这 种 模拟 是 最 优 的 。 利 用 这 种 手段 ， 教 师 对 环境 掌握 的 知识 就 可 以 由 训练 最 大 限度 地 传授 给 神 
经 网 络 。 当 条 件 成 熟 的 时 候 ， 就 可 以 将 教师 排除 在 外 ， 让 神经 网 络 完全 自主 地 应 对 环境 。 

我 们 刚刚 描述 的 有 监督 学 习 就 是 前 面 2.2 节 讨 论 的 误差 - 修正 学 习 方法 。 它 是 一 种 闭环 
反馈 系统 ， 但 未 知 的 环境 不 包含 在 循环 中 。 我 们 可 以 采用 训练 样本 的 均 方 误差 或 平方 误差 和 
作为 性 能 测试 手段 ， 它 可 以 定义 为 系统 的 一 个 带 自由 参数 的 函数 。 该 函数 可 以 看 作 一 个 多 维 
误差 -性 能 曲面 ， 或 者 简称 误差 曲面 ， 其 中 自由 参数 作为 坐标 轴 。 实 际 误差 曲面 是 所 有 可 能 
的 输出 输入 的 平均 。 任 何 一 个 在 教师 监督 下 的 系统 给 定 操作 都 表示 误差 面 上 的 一 个 点 。 该 系 
统 要 随时 间 提 高 性 能 ， 就 必须 向 教师 学 习 ， 操 作 点 必须 要 向 着 误差 曲面 的 最 小 点 逐渐 下 降 ， 
误差 极 小 点 可 能 是 局 部 最 小 ， 也 可 能 是 全 部 点 中 的 最 小 。 有 指导 学 习 系统 能 够 处 理 这 些 有 用 
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信息 ， 它 可 以 根据 系统 当前 的 行为 计算 出 误差 曲面 的 梯度 。 误 差 曲面 上 任何 一 点 的 梯度 指 的 
是 指向 最 速 下 降 方向 的 向 量 。 实 际 上 ， 在 向 例子 进行 有 监督 学 习 的 情况 下 ， 系 统 可 以 采用 梯 
度 向 量 瞬 时 估计 ， 这 时 假如 将 例子 的 标号 约定 为 访问 的 时 间 。 采 取 这 种 估计 一 般 会 导致 在 误 
差 曲面 上 操作 点 的 运动 轨迹 经 常 以 “随机 漫游 ”的 形式 出 现 。 然 而 ， 如 果 我 们 能 给 定 一 个 设计 
好 的 算法 来 使 代价 函数 最 小 ， 而 且 有 足够 的 输入 /输出 的 数据 集 和 充裕 的 训练 时 间 ， 那 么 有 
指导 学 习 系统 往往 可 以 较 好 地 完成 诸如 模式 分 类 、 函 数 逼近 之 类 的 任务 。 


2.9 无 教师 学 习 


在 有 监督 学 习 系 统 中 ， 学 习 过 程 是 在 教师 的 监督 下 进行 的 。 然 而 ， 在 无 教师 学 习 范 例 
中 ， 正 如 它 的 名 字 暗 示 的 那样 没有 教师 监视 学 习 过 程 。 也 就 是 说 ， 神 经 网 络 没有 任何 带 标 号 
的 例子 可 以 学 习 。 第 二 种 学 习 范例 (无 监督 学 习 ) 又 分 为 两 类 : 增强 式 学 习 / 神 经 动态 规划 和 
无 监督 学 习 。 


1. 增强 式 学 习 /神经 动态 规划 


在 增强 式 学 习 (reinforcement leaming) ®! 中 ， 输 入 输出 映射 的 学 习 是 通过 与 环境 的 不 断交 
互 来 完成 的 ， 目 的 是 使 一 个 标量 性 能 指标 达到 最 小 。 图 2-7 显示 的 是 增强 式 学 习 的 方 框图 。 
这 种 学 习 系统 建 立 在 一 个 评价 的 基础 上 ， 评 价 将 从 周围 环境 中 接收 到 的 原始 增强 信号 转换 成 
一 种 称 为 启迪 增强 信号 的 高 质量 的 增强 信和 号 ,两 者 都 是 标量 输入 (Barto et al. , 1983) 。 设 计 


该 系统 的 目的 是 为 了 适应 延迟 增强 情况 ie 
下 的 学 习 ， 即 意味 着 系统 观察 从 环境 接 
收 的 一 个 时 序 刺激 ( 即 状态 向 量 )， 它 们 | 向 最 D | 








最 终 产 生 启发 式 的 增强 信号 。 学 习 的 目 
标 是 将 cost-to-go 函数 最 小 化 ，cost-to-go 
函数 定义 为 采取 一 系列 步 又 的 动作 代价 
的 累积 期 望 值 ， 而 不 是 简单 的 直接 代 
价 。 可 以 证 明 : 在 时 间 序 列 上 早期 采取 
的 动作 事实 上 是 整个 系统 最 好 的 决定 。 
学 习 机 的 功能 ( 它 构 成 了 系统 的 第 二 个 OE ZEEE 
组 件 ) 就 是 用 米 发 现 这 些 动作 并 将 它们 0.7 AEREI AER 
向 环境 反馈 。 
延迟 增强 式 学 习 系 统 很 难 在 实际 上 运用 ， 基 本 原因 有 二 : 
。 在 学 习 过 程 中 的 每 个 步骤 ， 没 有 教师 提供 一 个 期 望 的 响应 。 
. 延迟 会 导致 原始 增强 信号 ， 这 意味 着 学 习 机 必须 解决 时 间 信 任 赋 值 问 题 。 也 就 是 说 ， 
对 将 导致 最 终结 果 的 时 间 序 列 步 中 的 每 一 个 动作 ， 学 习 机 必须 各 自 独立 地 对 信任 和 
责任 赋值 ， 而 原始 增强 可 能 仅 评价 最 终结 果 。 
尽管 存在 这 些 困难 ， 延 迟 增强 学 习 还 是 非常 有 吸引 力 的 。 它 提供 系统 与 周围 环境 交互 的 基 
础 ， 因 此 可 以 仅仅 在 这 种 与 环境 交互 获得 经 验 结果 的 基础 上 ， 发 展 学 习 完 成 指定 任务 的 能 力 。 
增强 式 学 习 和 Bellman(1957) 在 最 优 控制 理论 背景 下 提出 的 动态 规划 密切 相关 。 动 态 规 
划 提 供 作 出 系列 决策 的 数学 形式 。 将 增强 式 学 习 放 在 动态 规划 的 框架 中 ， 主 题 就 更 加 丰富 ， 
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这 一 点 在 Bertsekas and Tsitsiklis(1996) 中 作 了 表述 。 动 态 规划 的 介绍 以 及 它 与 增强 式 学 习 的 关 
系 将 在 第 12 章 讨论 。 


2. 无 监督 学 习 


如 图 2-8 所 示 ， 在 无 监督 或 自 组 织 学习 系 统 中 ， 没 有 外 部 的 教师 或 者 评价 来 监督 学 习 的 
过 程 。 提 供 独立 于 任务 的 表示 性 质 的 度量 ， 要 求 网 络 学 习 该 度量 而 且 自 由 参数 将 根据 这 个 度 
量 来 逐步 优化 网 络 。 一 旦 神经 网 络 能 够 与 输入 数据 的 统计 性 特征 相 一 致 ， 那 么 它 将 发 展 形成 
用 于 输入 数据 编码 特征 的 内 部 表示 的 能 力 ， 从 而 自动 描述 环境 状 


vE? 态 的 向 量 
为 了 完成 无 监督 学 习 ， 我 们 可 以 使 用 竞争 性 学 习 


规则 。 例 如 ， 神 经 网 络 可 能 包括 两 层 : 输入 层 和 竞争 
层 。 输 入 层 接受 有 用 的 数据 。 竞 争 层 由 相互 竞争 (根据 
一 定 的 学 习 规则 ) 的 神经 元 组 成 ， 它 们 力图 获得 响应 包含 在 输入 数据 中 的 特征 的 “机 会 "。 最 
简单 的 形式 就 是 神经 网 络 采 用 “ 胜 者 全 得 ”的 策略 。 正 如 2.5 节 所 述 ， 在 这 种 策略 中 具有 最 大 
总 输入 的 神经 元 廉 得 竞争 而 被 激活 ， 其 他 所 有 的 神经 元 被 关 掉 。 

在 第 8 章 到 第 11 章 将 讨论 无 监督 学 习 的 不 同 算法 。 


2.10 学 习 任 务 


本 章 前 面 几 节 讨 论 了 不 同 的 学 习 算法 和 学 习 范例 。 在 本 节 中 ,我们 将 描述 一 些 基本 的 学 
习 任务 。 选 定 一 个 特定 的 学 习 算 法 与 神经 网 络 需 要 完成 的 学 习 任 务 密切 相关 。 在 这 种 背景 
下 ， 我 们 将 根据 不 同 的 形式 分 别 比 较 神 经 网 络 的 六 种 不 同 的 学 习 任 务 。 


模式 联想 


联想 记忆 是 与 大 脑 相 似 的 依靠 联想 学 习 的 分 布 式 记忆 。 自 从 亚 里 士 多 德 时 代 起 ， 联 想 就 
被 认 作 是 人 脑 的 一 个 显著 特征 ， 而 且 认 知 的 所 有 模式 都 以 这 种 或 那 种 形式 使 用 联想 作为 基本 
的 行为 (Anderson,1995) 。 

联想 有 两 种 形式 : 自 联 想 与 异 联想 。 自 联想 方式 当 存 储 一 系列 的 模式 (向 量 ) 时 神经 网 络 
要 求 不 断 地 将 它们 呈现 给 网 络 。 其 后 将 已 存 模式 的 部 分 描述 或 畸变 (噪声 ) 形 式 呈 现 给 网 络 ， 
而 网 络 的 任务 就 是 检索 (回忆 ) 存 储 的 该 特定 模式 。 异 联想 与 自 联想 的 不 同 之 处 就 在 于 一 个 任 
意 的 输入 模式 集合 与 男 一 个 输出 模式 集合 配对 。 自 联想 需要 使 用 无 监督 学 习 方 式 ， 而 异 联 想 
采用 监督 学 习 方式 。 

Wx, 表示 在 联想 记忆 中 的 关键 模式 (向 量 ) 而 y; 表示 存储 模式 (向 量 )。 网 络 完成 的 模式 
联想 由 


图 2-8 无 监督 学 习 方 框图 


X > Yi k = 1,2,°,q (2.18) 
表示 ， 其 中 9 是 存储 在 网 络 中 的 模式 数 。 关 键 模式 x, 作为 输入 ， 不 仅 决定 存储 模式 y; 的 存 
储 位 置 ， 同 时 也 拥有 检索 该 模式 的 键 码 。 
在 自 联 想 记 忆 模 式 中 : x, =yY:， 所 以 输入 输出 数据 的 空间 维 数 相 同 。 在 异 联想 记忆 模式 
中 : x,y, 因此 ， 第 二 种 情况 的 输出 空间 维 数 可 能 与 输入 数据 空间 维 数 相同 ， 也 可 能 不 同 。 
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联想 记忆 模式 的 操作 一 般 包括 两 个 阶段 

。 存储 阶段 ， 指 的 是 根据 式 (2.18) 对 网 络 进行 训练 。 

。 回忆 阶段 ， 网 络 根据 所 呈现 的 有 噪声 的 或 畸变 的 关键 模式 检索 对 应 的 存储 模式 。 

令 刺 激 ( 输 入 )x 表示 关键 模式 x, 的 有 噪声 或 畸变 形式 。 如 图 2-9 所 示 ， 这 个 刺激 产生 响 
应 (输出 )y。 作 为 完整 的 回忆 ， 我 们 将 发 现 y=y,， 输入 向 量 输出 向 量 
其 中 y, 为 由 关键 模式 x, 联想 的 记忆 模式 。 如 果 对 cama y 
x= x 有 yzJ， 就 说 联想 记忆 有 回忆 错误 。 

联想 记忆 中 存储 的 模式 数目 q 提供 网 络 存储 moo 模式 联想 输入 输出 关系 图 
能 力 的 一 个 直接 度量 。 在 设计 联想 记忆 时 ， 问 题 就 是 使 存储 能 力 9( 表 示 为 与 构建 网 络 的 神 
经 元 总 数 N 的 百分比 ) 尽 量 大 ， 并 上 且 保 持 记忆 中 的 大 部 分 模式 能 正确 回忆 。 


模式 识别 


人 类 非常 擅长 模式 识别 。 通 过 感官 ， 我 们 可 以 从 周围 的 世界 接受 到 数据 ， 并 且 可 以 识别 
出 数据 源 。 我 们 往往 是 瞬间 完成 ， 几 乎 毫 不 费力 。 例 如 ， 我 们 能 够 识别 出 任何 一 张 熟悉 的 
脸 ， 即 使 我 们 和 这 个 人 已 经 多 年 未 曾 谋 面 。 无 论 电 话 线路 如 何 差劲 ， 我 们 还 是 可 以 迅速 地 根 
据 他 或 者 她 的 声音 很 快 地 甄别 出 你 的 熟人 。 仅 仅 闻 一 下 ， 就 能 分 辨 出 一 个 煮 鸡蛋 是 否 变 坏 。 
人 类 是 通过 学 习 过 程 来 成 功 地 实现 模式 识别 的 ， 神 经 网 络 也 是 如 此 。 

模式 识别 被 形式 地 定义 为 一 个 过 程 ， 由 这 个 过 程 将 接收 的 模式 或 信号 确定 为 一 些 指定 类 
(类 别 ) 中 的 一 个 类 。 一 个 神经 网 络 要 实现 模式 识别 需要 先 经 过 一 个 训练 的 过 程 ， 在 此 过 程 中 
网 络 需 要 不 断 地 接受 一 个 模式 集合 以 及 每 个 特定 模式 所 属 的 类 别 ; 然后 ， 把 一 个 以 前 没有 见 
过 但 属于 用 于 训练 网 络 的 同一 模式 总 体 的 新 模式 呈现 给 神经 网 络 。 神 经 网 络 可 以 根据 从 训练 
数据 中 提取 的 信息 识别 特定 模式 的 类 别 。 神 经 网 络 的 模式 识别 本 质 上 是 基于 统计 特性 的 ， 各 









个 模式 可 以 表示 成 为 多 维 判 定 空间 的 一 些 点 。 判 定 空间 被 划分 为 不 同 的 区 域 ， 每 个 区 域 对 应 


一 个 模式 类 。 判 定 边界 由 训练 过 各 
r ， bl 用 于 特征 抽取 | = 有 
决定 。 我 们 可 以 根据 各 个 模式 类 内 —_ Bey RAN 


部 以 及 它们 之 间 固 有 可 变性 用 统计 
方式 确定 边界 。 
一 般 而 论 ， 采 用 神经 网 络 的 模 
式 识别 机 分 为 如 下 两 种 形式 : 
。 如 图 2-10a 所 示 ， 识别 机 分 
为 两 部 分 ， 用 来 作 特 征 抽 取 
的 无 监督 网 络 和 作 分 类 的 监 
督 网 络 。 这 种 方法 遵循 传统 
的 统计 特性 模式 识别 方法 
(Duda and Hart,1973; Fukunaga, 
1990)。 用 概念 术语 来 表示 ， m- 维 观察 空间 4- 维 特征 空间 r- 维 判 定 空间 
一 个 模式 是 一 个 m 维 的 可 b) 


观测 的 数据 ， 即 m 维 观测 图 2-10 模式 分 类 的 经 典 分 类 方法 图 解 
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(数据 ) 空 间 集中 的 一 个 点 x。 如 图 2- 10b 所 示 ， 特 征 抽 取 描 述 为 一 个 变换 ， 它 将 点 x 
映射 成 一 个 q 维特 征 空间 相对 应 的 中 间 点 yg < m)。 这 种 变换 可 看 作 是 维 数 缩减 
( 即 ， 数 据 压 缩 ) ， 这 种 做 法 主要 是 基于 简化 分 类 任务 的 考虑 。 分 类 本 身 可 描述 为 一 
个 变换 ， 它 将 中 间 点 了 上 映射 为 > 维 判定 空间 上 的 一 个 类 ， 其 中 > 是 要 区 分 的 类 别 数 。 
。 识别 机 设计 成 一 个 采用 监督 学 习 算 法 的 多 层 前 馈 网 络 。 在 这 第 二 个 方法 中 ， 特 征 抽 
取 由 网 络 隐藏 层 中 的 计算 单元 执行 。 
实际 应 用 中 到 底 采 用 两 个 方法 中 的 哪 一 个 方法 ， 取 决 于 实际 应 用 的 着 眼 点 。 
函数 逼近 
第 三 个 学 习 任 务 是 函数 逼近 。 考 虑 由 函数 关系 
d = f(x) (2.19) 
描述 的 一 个 非 线 性 输入 输出 上 映射， 其 中 向 量 x 是 输入 ， 向 量 d 为 输出 。 向 量 值 函 数 f(. ) 假 定 
为 未 知 。 为 了 弥补 函数 f: ) 知 识 的 缺乏 ， 我 们 假定 有 如 下 的 训练 样 例 集合 : 
了 = \(x,,d,)}%, (2.20) 
我 们 的 要 求 是 设计 一 个 神经 网 络 来 允 近 未 知 泪 数 O), 使 由 网 络 实际 实现 的 描述 输入 - 输 
出 映射 的 函数 FO ) 在 欧 几 里 德 距离 的 意义 下 与 人 (:) 足 够 接近 ， 即 
| F(x) - f(x) || < 8, 对 于 所 有 的 x (2.21) 
其 中 8 是 一 个 很 小 的 正 数 。 假 定 训练 集 样本 数目 N 足够 大 ， 神 经 网 络 也 有 适当 数目 的 自由 
参数 ， 那 么 对 于 特定 的 任务 逼近 误差 s 应 当 是 足够 的 小 。 
在 这 里 ， 逼 近 问 题 其 实 是 一 个 很 完整 的 监督 学 习 ， 其 中 x; 是 输入 向 量 ， 而 a, 是 期 望 的 
响应 。 我 们 可 以 换 一 个 角度 思考 这 种 问题 ， 将 监督 学 习 看 成 是 一 个 逼近 问题 。 
神经 网 络 逼 近 一 个 未 知 输入 - 输出 映射 的 能 力 可 以 从 两 个 重要 途径 利用 ， 
。 系统 办 识 。 假 定式 (2.19) 描 述 的 是 一 
个 未 知 的 无 记忆 的 多 给 入 - 多 输出 
(multiple input-multiple output, MIMO ) 
系统 的 输入 输出 关系 ; 所 谓 “ 无 记忆 ” 
系统 ,我 们 指 的 是 时 间 不 变性 的 系 
统 。 然 后 我 们 利用 在 式 (2.20) 中 的 标 
定 的 例子 集合 将 神经 网 络 训 练 为 系统 
的 一 个 模型 。 假 定 y;， 表 示 神 经 网 络 
中 对 输入 向 量 x, 产生 的 相应 输出 。 
正如 图 2-11 所 描绘 ，d, (与 x, 相对 
应 ) 与 输出 y;， 之 间 产 生 一 个 误差 信 图 2-11 系统 识别 方 框图 
号 e;， 这 个 误差 信号 接着 用 来 调节 网 络 的 自由 参数 ， 最 终 使 未 知 系统 的 输出 和 神经 
网 络 输出 在 整个 训练 集 上 的 平方 差 在 统计 意义 上 达到 最 小 。 
逆 系 统 。 下 一 步 假 定 我 们 给 定 一 个 已 知 无 记忆 MIMO 系统 ， 其 中 输入 输出 关系 如 式 
(2.19) 所 示 。 在 这 种 情况 下 的 要 求 是 如 何 构造 一 个 北 系 统 ， 针 对 向 量 d 产生 系统 向 
量 x。 逆 系统 可 以 由 
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x = f'(d) (2.22) 
ok, HP wee '(-) dor WRK. ER, TORR EC), EER - 11h 
ERRARE. TBARS, meee fC ) 过 于 复杂 ， 从 而 限制 了 求 
出 肥 函 数 E () 的 直接 公式 。 给 定 如 式 (2.20) 的 一 些 样 例 集 ， 我 们 可 以 通过 采取 图 2- 12 所 示 的 
过 程 构造 一 个 神经 网 络 来 逼近 函数 人 (')。 在 这 里 描述 的 情况 中 ，x Ald; 的 作用 交换 了 位 置 : 
向 量 d 作为 输入 ， 向 量 x, 作为 期 望 的 响应 。 假 定向 量 e 表示 x, 与 神经 网 络 针对 d 的 实际 输 
出 yi 之 间 的 误差 。 与 系统 辨识 问题 类 似 , 利用 误差 信号 向 量 来 调节 网 络 的 自由 参数 ， 最 终 使 未 
知 逆 系 统 的 输出 和 神经 网 络 输出 在 整个 训练 样 例 集 上 的 平方 差 在 统计 意义 上 达到 最 小 。 

误差 @ 





图 2-12 逆 模 式 系统 方 框图 


控制 


神经 网 络 可 以 完成 的 另外 一 个 学 习 任务 是 对 设备 进行 控制 操作 。 所 谓 “ 设 备 ” 指 的 是 一 个 
过 程 或 者 是 可 以 在 被 控 状 态 下 维持 运转 的 系统 的 一 个 关键 部 分 。 学 习 和 控制 相关 其 实 不 是 一 
件 什 么 值得 大 惊 小 怪 的 事情 ， 毕 竞 我 们 人 脑 就 是 一 个 计算 机 ( 即 信息 处 理 器 ) ， 作 为 整个 系统 
的 输出 是 实际 的 动作 。 在 控制 的 这 种 意义 下 ， 人 脑 就 是 一 个 活生生 的 例子 ， 它 证 明 可 以 建立 
一 个 广义 控制 器 ， 充 分 利用 并 行 分 布 式 硬件 ， 能 够 并 行 控制 成 千 上 万 的 致 动 器 (如 肌肉 神经 
纤维 )， 能 够 处 理 非 线性 性 和 噪声 ， 并 且 可 以 在 长 期 计划 水 平 上 进行 优化 (Werbos,1992)。 

考虑 如 图 2- 13 所 示 的 反馈 控制 系统 。 该 系统 涉及 利用 被 控 设 备 的 单元 反馈 ， 即 设备 的 
输出 直接 反馈 给 输入 ” 。 因 此 设备 的 输出 y 减 去 从 外 部 信息 源 提供 的 参考 信号 d。 这 样 最 终 
产生 误差 信号 e 并 将 之 应 用 到 神经 控制 器 以 便 调 节 它 的 自由 参数 。 控 制 器 的 主要 功能 就 是 为 
设备 提供 相应 的 输入 ， 从 而 使 它 的 输出 y 跟踪 参考 信号 d。 换 句 话 说， 就 是 控制 器 不 得 不 对 
设备 的 输入 输出 行为 进行 转换 。 








图 2-13 反馈 控制 系统 方 框图 


我 们 注意 到 在 图 2- 13 中 误差 信和 号 e 在 到 达 设 备 之 前 先 通过 神经 控制 器 。 结 果 ， 根 据 误 
差 - 修正 学 习 算 法 为 了 实现 对 设备 自由 参数 的 调节 ， 我 们 必须 知道 Jacobi 矩阵 
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其 中 y, 中 是 设备 输出 y 的 一 个 元 件 ， 而 u 是 设备 输入 u 的 一 个 元 件 。 不 幸 的 是 偏 导数 9y,/ 
a 忆 对 于 不 同 的 上 ，7 依赖 于 设备 的 运行 点 ， 因 而 是 未 知 的。 我 们 可 以 采用 下 面 两 种 方法 之 一 
来 近似 计算 该 偏 导数 : 
。 间接 学 习 。 利 用 设备 的 实际 输入 -输出 测量 值 ， 首 先 构 造 神经 网 络 模型 产生 一 个 它 
的 复制 品 。 接 着 利用 这 个 复制 品 提供 Jacobi 矩阵 了 的 一 个 估计 值 。 随 之 把 构成 Jacobi 
SOR J Ae SOT RS -修正 学 习 算 法 ， 以 便 计算 对 神经 控制 器 的 自由 参数 的 调 
+ (Nguyen and Widrow,1989;Suykens et al. ,1996; Widrow and Walach, 1996)。 
。 直接 学 习 。 偏 导数 ?yx/az 的 符号 通常 是 知道 的 而 且 在 设备 的 动态 区 域内 一 般 是 不 变 
的 。 这 意味 着 我 们 可 以 通过 各 自 的 符号 来 通 近 这 些 偏 导数 。 它 们 的 绝对 值 由 神经 控 
制 器 的 自由 参数 的 一 种 分 布 式 表示 给 出 (Saerens and Soquet,1991; Schiffman and Geffers, 
1993)。 因 此 ， 神 经 控制 器 能 够 直接 从 设备 学 习 如 何 调节 它 的 自由 参数 。 


滤波 


滤波 器 这 个 术语 一 般 指 的 是 一 种 设备 或 算法 ， 利 用 它 能 从 一 个 带 有 噪声 的 数据 集中 抽取 
一 定数 量 的 符合 要 求 的 信息 。 曲 声 可 能 是 由 不 同 来 源 引 起 的 。 例 如 ， 可 能 是 采用 带 噪声 的 传 
感 器 测量 数据 ， 也 可 能 表示 承载 信息 的 信号 通过 通信 信道 传输 时 受到 损坏 。 另 外 一 个 例子 是 
一 个 有 用 的 信号 元 件 受 到 从 它 周 围 环境 接收 的 干扰 信号 的 损害 。 我 们 可 以 使 用 滤波 器 来 实现 
三 个 基本 的 信息 处 理 任务 : 

1. 滤波 。 这 个 任务 指 的 是 在 离散 的 时 间 n 用 直到 且 包 括 在 内 的 测量 数据 抽取 一 定 
量 有 价值 的 信息 。 

2. 平滑 处 理 。 第 二 个 任务 不 同 于 滤波 处 理 之 处 在 于 在 时 间 n 内 一 定量 有 价值 的 信息 不 
可 得 到 ， 而 且 在 时 间 n 之 后 测量 到 的 数据 可 以 用 来 得 到 这 个 信息 。 这 意味 着 在 平滑 处 理 过 
程 中 ,产生 输出 结果 有 延迟 。 因 为 在 平滑 处 理 过 程 中 ， 我 们 不 仅 能 够 利用 直到 时 间 n 的 数 
据 ， 而 且 可 以 利用 在 n 之 后 的 数据 ， 从 统计 学 意义 上 讲 ， 我 们 期 望 平滑 过 程 应 当 比 单纯 的 
过 滤 更 加 精确 。 

3. 预测 。 这 个 任务 是 指 信息 处 理 过 程 的 预测 方面 。 它 的 目的 是 通过 测量 到 n( 含 n) 时 刻 的 
数据 ， 导 出 一 定量 有 价值 的 信息 ， 这 段 信 息 可 能 与 将 来 n+ no 时 刻 的 数据 相似 ， 其 中 n > 0。 

滤波 问题 是 大 家 都 很 熟悉 的 “鸡尾酒 会 问题 "i 中 在 鸡尾酒 会 这 样 一 个 嗜 杂 的 环境 里 面 ， 
房间 里 还 有 其 他 的 干扰 性 谈话 ， 说 话 者 的 声音 信号 往往 埋没 于 与 之 几乎 差不多 的 噪声 环境 
中 。 但 无 论 怎样 喉 ， 人 们 都 有 一 个 非常 了 不 起 的 能 力 : 全 神 贯 注 听 清 与 之 对 话 者 的 谈话 。 在 
解决 鸡尾酒 会 问题 时 ,可 想 而 知 的 是 ,肯定 采取 了 某 种 形式 的 预 处 理 分 析 手 段 ( Velmans , 
1995)。 在 (人 工 ) 神 经 网 络 环境 中 ， 出 现 一 个 相似 的 滤波 问题 ， 即 盲 信号 的 分 离 问 题 (Comon， 
1994; Bell and Sejnowski, 1995; Amari et al. ,1996 )。 为 了 将 言 信号 分 离 问 题 形式 化 ,我 们 假定 
未 知 源 信号 集合 js (nz) 人 :彼此 之 间 相 互 独 
立 。 这 些 信号 由 未 知 传感器 的 线性 混合 ， 产 
AE m x 1 观察 向 量 (参看 图 2- 14) 

x(n) = Au(n) (2.24) 

其 中 图 2- 14 言 源 分 离 方 框图 
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u(n) = [u (n), u, (n), t, ua (n)]" (2.25) 

x(n) = Cx ln), x(n), p, änn] (2.26) 
而 且 A 是 一 个 未 知 的 m x m EAR RSE, AWS x(n)， 要 求 在 无 监督 方式 下 恢 
复原 始 信 号 ww (n),w(n),…,u ns 

现在 回 到 预测 问题 上 来 ， 给 定 过 程 在 过 去 时 间 上 均匀 分 布 的 一 些 值 ， 如 x (n - T), 

x(n-27),.…,x(n—- mT), ssh 7T 式 采样 周期 ，m 是 预测 顺序 ， 要 求 对 过 程 的 当前 值 x(n) 
作出 预测 。 如 图 2-15 所 示 ， 既 然 训 练 样本 是 直接 从 过 程 本 身 来 抽取 的 ， 可 以 利用 监督 学 习 
的 误差 - 修正 方法 来 解决 预测 问题 ， 其 中 x(n ) 假 定 为 期 望 的 响应 。 假 定 * (nn) 为 神经 网 络 在 
时 间 n 产生 的 预测 值 ， 那 么 误差 信和 号 e(n) 可 以 定义 为 4(n) 与 x(n) 的 差 值 ，e(n) 用 来 调节 
神经 网 络 的 自由 参数 。 基 于 此 ， 预 测 可 视 为 某 种 形式 上 的 模型 构建 ， 在 统计 意义 下 ， 这 种 预 
测 误差 越 小 ， 网 络 作为 产生 数据 的 内 在 物理 过 程 的 模型 性 能 就 越 好 。 如 果 这 一 过 程 是 非 
线性 的 ， 那 么 使 用 神经 网 络 就 为 解决 预 x(n) © 
测 问题 提供 了 一 个 强 有 力 的 解决 方案 ， 
因为 非 线性 处 理 单元 可 以 嵌 人 它 的 构造 x(n- T) 
中 。 但 是 使 用 非 线性 处 理 单元 惟一 可 能 : 
的 例外 是 网 络 的 输出 单元 。 如 果 时 间 数 xm-m7)o 
列 |x(n)| 的 动态 区 域 是 未 知 的 ， 最 合 





理 的 选择 是 使 用 线性 输出 单元 。 mots PREMNNER 
波束 形成 

波束 形成 是 滤波 的 空间 形式 ， 利 用 它 区 分 目标 信号 和 背景 噪声 的 空间 性 质 。 用 于 波束 形 
成 的 设备 称 为 波束 形成 器 。 


波束 形成 的 任务 适合 利用 神经 网 络 ， 因 为 从 人 类 听觉 反应 的 心理 声学 的 研究 (Bregman， 
1990 ) 和 蝙蝠 回声 定位 听 党 系统 皮质 层 的 特征 映射 研究 (Suga, 1990a; Simmons and Sailant,1992 ) 
中 ， 我 们 有 了 相关 的 线索 。 蝙 蝠 的 回声 定位 由 发 送 短 时 频率 调制 (frequency-modulated, FM) E 
纳 信号 了 解 周围 环境 ， 然 后 利用 它 的 听觉 系统 (包括 一 对 耳 朱 ) 集 中 注意 于 它 的 猎物 (如 飞行 
的 昆虫 )。 蝙 蝠 的 耳 东 提供 某 种 形式 的 空间 滤波 (准确 地 说 为 空间 干扰 测量 术 ) ， 听 党 系 统 利 
用 它 产生 注意 的 选择 性 (attentional selectivity) 。 
波束 形成 通常 用 于 雷达 和 声 纳 系统 ， 它 们 的 基本 任务 是 在 接收 器 噪声 和 干扰 信号 (如 人 
为 干扰 ) 出 现 的 情况 下 探测 和 跟踪 感 兴趣 的 目标 。 两 个 因素 使 这 个 任务 复杂 化 
。 目标 信号 源 自 未 知 的 方向 。 
。 于 扰 信号 无 可 用 的 先 验 信息 。 
处 理 这 种 情况 的 一 种 方法 是 使 用 广义 旁 办 消除 器 (generalized sidelobe canceller, GSLC ), 
图 2-16 显示 的 是 它 的 方 框图 。 这 个 系统 由 以 下 组 件 组 成 (Griffiths and Jim, 1982; Van Veen, 
1992 ; Haykin, 1996) : 
。 一 个 天 线 元 阵列 ， 它 提供 对 空间 中 离散 点 上 的 被 观察 的 信和 号 取样 的 手段 。 
。 一 个 线性 组 合 器 ， 它 是 由 固定 的 权重 集合 | wj, 定义 的 ， 其 输出 就 是 期 望 的 响应 
这 个 线性 组 合 器 的 作用 就 像 一 个 “空间 滤波 器 " ， 它 由 一 个 辐射 模式 刻画 (例如 ， 一 个 
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u(n) oO 

u(n) 口 | Mw d(n) 

u,,(n) O 误差 信号 eln) 

图 2-16 广义 旁 因 消除 器 方 框图 
天 线 输出 振幅 与 输入 信号 人 射 角 的 极 坐 标 图 )。 辐 射 模 式 的 主因 指向 规定 的 方向 。 因 
此 GSLC 受 它 约束 而 产生 一 个 无 畸变 的 响应 。 线 性 组 合 器 的 输出 记 为 4(n)， 它 对 波 
束 形 成 器 提供 期 望 的 响应 。 
。 一 个 信和 号 阻塞 矩 阵 C.， 它 的 功能 是 删除 干扰 ， 这 种 于 扰 是 通过 代表 线性 组 合 器 的 空 

间 滤 波 器 辐射 模式 的 旁 办 泄漏 的 。 


。 一 个 具有 可 调 参 数 的 神经 网 络 ， 它 被 设计 成 能 适应 干扰 信号 的 统计 变化 。 

神经 网 络 的 自由 参数 的 调节 是 由 一 个 在 误差 信号 e(n) 上 操作 的 纠 错 学 习 算 法 完成 的 ， 
e(z) 由 线性 组 合 器 的 输出 d(n) 和 神经 网 络 的 实际 输出 y(n ) 之 间 的 差 确 定 。 从 而 GSLC 在 线 
性 组 合 器 的 监督 下 操作 ， 线 性 组 合 器 担当 着 “教师 "的 角色 。 作 为 普通 的 监督 学 习 时 ， 注 意 线 
性 组 合 器 是 在 神经 网 络 的 反馈 环 之 外 的 。 一 个 使 用 神经 网 络 来 学 习 的 波束 形成 器 称 为 神经 波 
来 形成 器 (neural beamformer) 或 者 神经 - 波束 形成 器 (neuro-beamfommer)。 这 类 学 习 机 可 归 人 注 
意 性 神经 计算 机 (attentional neurocomputers) 的 范围 (Hecht-Nielsen,1990) 。 

这 里 讨论 的 6 个 学 习 任务 的 多 样 性 是 神经 网 络 作为 信息 处 理 系统 通用 性 的 证 明 。 从 基本 
意义 上 说 ， 这 些 学 习 任务 都 是 从 映射 的 样 例 中 (可 能 有 噪声 ) 学 习 映 射 的 问题 。 如 果 没 有 强迫 
接受 先 验 知识 ， 可 能 的 解 映射 并 不 惟一 ， 从 这 个 意义 上 来 说 ， 每 个 任务 事实 上 都 是 不 适 定 
的 。 使 这 些 解 适 定 的 一 个 方法 是 使 用 第 5 章 描述 的 正则 化 理论 。 


2.11 记忆 


关于 学 习 任务 的 讨论 ， 特 别 是 模式 联想 的 任务 ， 使 我 们 很 自然 地 考虑 记忆 的 问题 。 在 神 
经 生物 学 的 语义 环境 中 ， 记 忆 是 指 由 生物 和 它 的 环境 之 间 相 互 作用 而 诱导 出 的 相对 持久 的 神 
经 改变 (Teyler, 1986)。 没 有 这 种 变化 就 没有 记忆 。 而 且 ， 要 想 这 种 记忆 有 用 ， 它 必须 对 神经 
系统 是 可 存 取 的 ， 这 样 才 可 以 去 影响 未 来 的 行为 。 然 而 ， 一 个 活路 模式 必须 首先 通过 学 习 过 
程 被 存储 在 记忆 里 。 记 忆 和 学 习 错 综 复杂 地 联系 着 。 当 一 个 特定 的 活跃 模式 被 学 习 后 ， 它 就 
存放 在 脑 中 某 个 地 方 ， 在 需要 时 就 会 回忆 起 来 。 记 忆 可 以 分 为 “短期 "和 “长 期 记忆， 取决 于 
保持 的 时 间 (Armbib,1989 )。 短 期 记忆 指 代表 环境 的 “当前 ”状态 的 知识 的 编制 。 以 短期 记忆 存 
储 的 知识 和 “新 ”的 状态 之 间 的 任何 差异 ， 都 会 用 来 更 新 短期 记忆 。 另 一 方面 ， 长 期 记忆 指 长 
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时 间或 永远 存储 的 知识 。 
在 这 一 节 中 ， 我 们 学 习 有 如 下 特征 的 联想 记忆 : 
。 记忆 是 分 布 式 的 。 


。 联想 记忆 的 刺激 (关键 ) 模 式 和 响应 (存储 ) 模 式 由 数据 向 量 组 成 。 
。 通过 设置 大 量 神经 元 的 神经 活动 的 空间 模式 ， 在 记忆 里 存储 信息 。 
- 刺激 包含 的 信息 不 仅 决定 它 在 记忆 中 的 存储 位 置 而 且 决 定 它 的 检索 地 址 。 


。 虽然 神经 元 不 代表 可 靠 的 和 低 噪音 的 计算 元 ， 但 是 记忆 表现 出 对 扩散 类 型 的 噪音 和 


破坏 的 高 度 抑制 。 


的 独特 的 可 能 性 。 

在 分 布 式 记 忆 中 ， 基 本 的 问题 是 许多 不 同 神经 元 的 
同时 或 接近 同时 的 行动 ,这 是 外 部 或 内 部 刺激 的 结果 。 
神经 活动 在 记忆 内 构成 的 空间 模式 包含 关于 刺激 的 信息 。 
因此 ， 我 们 说 记忆 去 执行 一 个 分 布 式 映 射 ， 它 把 一 个 输 
人 空间 的 活路 模式 转换 为 另 一 个 输出 空间 活 牙 模式 。 我 
们 可 以 考虑 一 个 理想 化 的 由 两 层 神经 元 组 成 的 神经 网 络 ， 
来 解释 分 布 式 记忆 映射 的 一 些 重要 特性 。 可 以 认为 图 2- 
17 是 神经 系统 组 件 模 型 的 网 络 的 图 解 (Cooper, 1973; 
Scofield & Cooper, 1985 )。 在 输入 层 的 每 个 神经 元 都 和 输 
出 层 的 每 个 神经 元 相 联结 。 实 际 上 突 触 之 间 的 连接 是 复 
AR AA CAR AY. ÆR 2- 17a 的 模型 里 ， 一 个 单独 的 理 
想 连接 被 用 来 表示 所 有 突 触 联系 之 间 的 整合 作用 ， 这 些 
突 触 联系 存在 于 输入 层 的 神经 树 突 和 输出 层 的 神经 轴 突 
分 支 之 间 。 输 入 层 一 个 神经 元 的 活动 水 平 会 影响 到 输出 
层 每 个 神经 元 的 活动 水 平 。 

图 2- 17b 描绘 的 是 相应 的 人 工 神经 网 络 的 情况 。 图 
中 有 一 个 源 节点 的 输入 层 和 一 个 作为 计算 节点 的 神经 元 
输出 层 。 在 这 种 情况 下 ， 网 络 的 突 触 权重 被 作为 神经 元 
的 整体 部 分 包括 在 输出 层 。 网 络 的 两 层 之 间 的 连接 链 是 
简单 连 线 。 

在 以 下 的 数学 分 析 中 ， 假 定 图 2-17a 和 2-17b 的 神 
经 网 络 是 线性 的 。 这 一 假设 的 内 涵 是 每 一 个 神经 元 都 像 
一 个 线性 组 合 器 一 样 运作 ， 如 图 2-18 的 信号 流 图 所 示 。 
为 了 进行 分 析 ， 设 想 一 个 活动 模式 x, 发 生 在 网 络 的 输入 
层 ， 另 一 个 活动 模式 y 同时 发 生 在 输出 层 。 这 里 我 们 要 
考虑 的 问题 是 从 模式 x, 和 模式 之 间 的 联想 中 学 习 。 
模式 x 和 y 用 向 量 表示 ， 它 们 的 扩展 形式 记 为 : 


X; = [ xr» Xia > Sim | 


存储 在 记忆 中 的 单个 模式 之 间 应 该 有 相互 作用 。( 和 否则 记忆 将 会 变 得 非常 大 ， 因 为 它 
要 去 运 应 大 量 彼 此 完全 隔离 的 模式 的 存储 。) 这 就 是 对 于 记忆 在 回忆 过 程 中 产生 误差 
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Jo. 


神经 元 RAE ” 神经 元 
输入 层 输出 层 


a) 





源 节点 神经 元 
输入 层 输出 层 
b) 


图 2-17 联想 记忆 模型 
a) 神 经 系统 的 联想 记忆 模型 组 件 
b) 使 用 人 工 神 经 元 的 联想 记忆 模型 





图 2-18 线性 神经 元 i 的 
信和 号 流 图 模型 
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和 yı = [Yis Yis + Yim) 

为 了 表达 的 方便 ， 我 们 假定 输入 空间 维 数 (例如 向 量 x, 的 维 数 ) 和 输出 空间 维 数 ( 例 如 向 量 y， 
的 维 数 ) 是 相同 的 ， 都 等 于 m。 从 此 我 们 称 m 为 网 络 维 数 或 者 简称 维 数 。 注 意 m 等 于 输入 
层 的 源 节点 数目 或 者 输出 层 的 神经 元 数目 。 对 于 一 个 有 着 大 量 神经 元 的 神经 网 络 ， 这 是 典型 
的 情况 ， 维 数 m 可 能 是 很 大 的 。 

x, My, 的 元 素 可 假定 是 正 值 或 负 值 。 这 是 人 工 神经 网 络 中 一 个 合理 的 假定 。 当 考虑 一 
个 真实 的 激活 水 平 ( 例 如 一 个 神经 元 的 激发 率 ) 和 一 个 非 零 的 自发 激活 水 平 之 间 差 异 作 为 相关 
的 生理 学 变量 时 ， 它 也 可 能 发 生 在 一 个 神经 系统 中 。 

图 2-17 假定 为 线性 的 网 络 ， 关 键 向 量 x, 和 已 记忆 的 向 量 y; 之 间 的 联想 可 以 用 算 阵 的 
形式 来 表示 如 下 : 

Ye = WN, k=l2g (2.27) 
这 里 W(%) 是 权 值 和 矩阵， 单独 由 输入 -输出 对 (x ,y; ) 确 定 。 

为 了 显示 权 值 矩阵 W(4) 的 详细 的 描述 ， 考 虑 图 2- 18， 它 显示 输出 层 里 一 个 神经 元 i 的 
具体 排列 。 由 于 输入 层 刺 激 用 于 对 关键 模式 x, 的 元 素 的 组 合 动作 ， 神 经 元 i 的 输出 ys 由 下 
式 给 出 : 

Yu = 3} w,(k) ty ， i= 1,2,-+,m (2.28) 
其 中 wy(k), j= 1，2，…，m ERAT ATER REE. AERA 
号 ， 我们 可 以 用 等 价 的 形式 


Xr 
X12 . 
ya = [wal k), w2(k) +, wink) . ’ i = 1,2,°*-,m (2.29) 


Xim 


表达 ys。 式 (2.29) 右 边 的 列 向 量 被 识别 为 关键 向 量 x; ， 通 过 把 式 (2.29) 代 入 m x 1 的 存储 向 
By, 的 定义 ， 得 到 


Ye wy, (k) wy(k) vee Wim (i) Xe 
| a) wath) 1 ton) “ (2.30) 
Yin Wml k) walk) O Wam, BAL xin 


式 (2.30) 是 式 (2.27) 中 描述 的 矩阵 变换 或 映射 的 展开 形式 ， 特 别 是 ，m x m EE WO) 
定义 为 


wa(k) wy (无 ) aa Win (k) 
Wk) = wah) wah) F an CH) (2.31) 
Wm (Kh) Wml k) o Walk) 


单独 地 表示 9 对 联想 模式 x, >y,, k=l, 2, =, qg ERENER, BW 
(，W(2)，…，W(9)。 假 如 这 个 联想 模式 用 权 值 矩阵 WOE, TREAT LEM — 
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mx m 记忆 和 抢 阵 ， 用 来 描述 整个 联想 模式 集合 的 权 值 矩阵 的 总 和 ， 表 示 如 下 : 

M = Swa) (2.32) 
记忆 和 矩阵 ME RAI A AERE BSE, WEM 代表 记忆 表述 
g 个 输入 -输出 模式 获得 到 的 总 经 验 。 用 另 一 种 方式 表示 就 是 ， 记 忆 和 窍 阵 M 包含 有 每 个 出 
现在 记忆 中 的 活动 模式 的 输入 输出 对 。 

式 (2.32) 中 给 出 的 关于 记忆 和 拖 阵 的 定义 用 递归 的 形式 可 以 重新 表示 为 

M, = M,., + W(F)， k = 1,2,°",q (2.33) 
这 里 M 的 初 值 是 0( 也 就 是 说 ， 记 忆 中 的 所 有 突 触 权 值 都 被 初始 化 为 0) ， 最 终 的 值 M, 和 式 
(2.32) 中 定义 的 M 的 值 完全 相等 。 根 据 递归 公式 (2.33) 可 知 ， 项 M,_ :是 从 (8 - 1) 个 联想 异 
HIFKER, M, 是 按照 第 个 联想 模式 产生 的 增 量 W(%) 更 新 后 的 值 。 然 而 ， 
要 注意 的 是 ， 如 果 把 W(k) 加 到 Mi_; 上 ， 增 量 W(%) 的 值 就 失去 了 在 组 成 M, 时 的 惟一 性 。 
虽然 考虑 不 同 联想 的 突 触 混 合 ， 但 有 关 刺 激 的 信息 可 能 并 未 丢失 ， 就 像 最 后 结果 显示 的 那样 。 
还 要 注意 的 是 ， 当 存储 的 模式 数量 q 增 大 时 ， 记 忆 中 新 模式 的 影响 总 的 来 说 在 逐渐 减 小 。 


HERRIZ 


假设 图 2- 17b 的 联想 记忆 通过 由 x,y, 描述 的 关键 模式 和 记忆 模式 的 联想 学 习 了 记忆 
矩阵 M 并 已 经 记 住 了 ， 这 里 =1，2,，…，g。 我 们 可 以 假定 M， 代 表 记 忆 和 矩阵 M 根据 这 
些 模 式 得 出 的 估计 值 (Anderson,1972,1983;Cooper,1973)， 表 示 如 下 : 

M = Dyx (2.34) 

项 yw 代表 关键 模式 x 和 记忆 模式 y, 的 外 积 。 这 个 外 积 是 权 值 矩阵 W(%) 的 估计 值 ， 权 值 
EER y, 映射 到 输出 模式 x, 上 。 既 然 模式 x, Ay, 都 被 假设 为 m x 1 向 量 ， 所 以 它们 
的 输出 乘积 yx ， 也 就 是 估计 值 M 就 是 一 个 miT m 列 的 矩阵 。 这 个 维 数 正好 和 等 式 (2.32) 
中 定义 的 记忆 和 矩阵 M 相 一 致 。 估 计 值 M 总 和 的 形式 与 式 (2.32) 中 定义 的 记忆 和 矩阵 有 着 直接 
的 联系 。 

外 积 y x 的 典型 形式 可 以 表示 为 ysxs ， 这 里 x 是 输入 层 中 源 节点 j 的 输出 ，yi 是 输出 
层 中 神经 元 ; 的 输出 。 在 第 个 联想 的 突 触 权 植 wj (%) 中 ， 源 节点 ;代表 一 个 前 突 触 节点 ， 
输出 层 中 的 神经 元 i 代表 一 个 后 突 触 节 点 。 因 此 ， 式 (2.43) 中 描述 的 “局 部 "学习 过 程 可 以 看 
成 是 Hebb 学 习 假设 的 推广 。 考 虑 到 用 于 构造 记忆 和 矩阵 M 的 矩阵 运算 ， 它 也 称 为 外 积 规则 。 
相应 地 ， 这 样 设计 的 联想 记忆 称 为 相关 短 阵 记忆 。 这 种 或 那 种 形式 的 相关 ， 确 实 是 人 类 神经 
系统 中 学 习 、 联 想 、 模 式 识别 和 记忆 回想 的 基础 (Eggermont, 1990 )。 

式 (2.34) 可 以 重新 写成 等 价 的 形式 为 : 





= YX’ (2.35) 


这 里 
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X = [xxx] (2.36) 
Y = [yyy] (2.37) 
ER EAE A KERARI m 行 g IERE, ERE Y 是 由 相应 的 
记忆 模式 组 成 的 m 行 g IER, 称 作 被 记忆 和 矩阵 。 
式 (2.35) 可 以 用 递归 的 形式 表示 成 
M,=M,,+y.x. = 12…,9g (2.38) 
图 2-19 表示 这 个 递归 的 信号 流 图 。 根 据 
这 个 信号 流 图 和 递归 公式 (2.38)， 和 矩阵 
M ,代表 记忆 秆 阵 的 旧 估 计 值 ， 和 矩阵 ML, 
代表 记忆 作用 于 模式 x, Aly, 所 得 的 新 联 h 
想 的 改变 值 。 比 较 式 (2.38) 和 (2.33) 中 的 
递归 ， 我 们 可 以 看 出 ， 外 积 yw 代表 权 
ER W(#) 相应 于 第 有 PARRA x, 
和 记忆 模式 y, 联想 的 估计 值 。 图 2-19 ”等 式 (2.38) 的 信号 流 图 表示 





回忆 

在 使 用 一 个 联想 记忆 的 过 程 中 提出 的 基础 问题 是 ;保存 在 记忆 中 模式 的 地 址 和 回忆 。 为 
了 解释 这 个 问题 的 一 个 方面 ， 我 们 让 M 表示 一 个 联想 记忆 的 记忆 抢 阵 ， 通 过 与 式 (2.34) 相 
一 致 的 9 个 联想 模式 , 已 经 完成 了 对 这 个 矩阵 的 学 习 。 随 机 选取 一 个 关键 模式 x, 作为 记忆 
的 刺激 产生 响应 


A 


y = Mx, 


J 


(2.39) 
将 式 (2.34) 代 入 式 (2.39)， 得 到 

y= Dy = Dy (2.40) 
这 里 ， 看 到 第 二 行 中 的 xx, 是 一 个 标量 ， 它 的 值 等 于 关键 向 量 x 和 xi 的 内 积 。 我 们 可 以 将 
式 (2.40) 重 写成 


y = (WX)y, + Slx yy (2.41) 
设 关键 模式 x, ，x, ，…，x, 均 被 规格 化 为 具有 单位 能 量 ， 即 
E, = Na = x, X; =1, k= 1,2,.…,g (2.42) 
相应 地 ， 可 以 将 记忆 对 刺激 (关键 模式 )x 的 响应 简化 为 
y=y, + Y; (2.43) 
其 中 
Vi = S(Tx)y, (2.44) 


k= 


J- 


式 (2.43) 右 边 的 第 一 项 代表 “期 望 的 "响应 y,; 所 以 ， 可 以 将 它 看 作 是 实际 的 响应 了 的 “信和 号 ” 
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部 分 。 第 二 项 v 是 “噪声 向 量 "， 它 是 由 关键 向 量 x 和 其 他 所 有 存储 在 记忆 中 向 量 的 串 音 产 
ER. RAHE v 是 引起 回忆 误差 的 根源 。 

在 线性 信号 空间 的 情况 下 ， 我 们 可 以 将 一 对 向 量 x 和 x RAE OW x, Fl x, 的 
内 积 再 除 以 它们 各 自 的 欧 几 里 德 范 数 或 长 度 的 乘积 ， 表 示 为 


cos( x, , X; ) = Tal tet (2.45) 
FES || x, RERE x, 的 欧 几 里 德 范 数 ， 定 义 为 x 的 能 量 的 平方 根 : 
Il x, = Oxx)’ = EY (2.46) 


返回 来 ， 注 意 根据 式 (2.42) 关 键 向 量 都 被 规格 化 为 具有 单位 能 量 。 因 此 ， 我 们 可 以 将 式 
(2.45) 的 定义 变 为 


cos(X,,X;) = XX; (2.47) 
我 们 可 以 把 式 (2.44) 中 的 噪声 向 量 重新 定义 为 

V = Sl cos(x, x; )y, (2.48) 
现在 看 出 ， 如 果 关键 向 量 是 正 交 的 (也 就 是 说 ， 在 欧 几 里 德 意 义 下 互相 垂直 )， 那 么 

cos(x,,x;) = 0, kj (2.49) 

因此 噪声 向 量 ”为 0。 在 这 种 情况 下 ， 响 应 y 等 于 y 。 若 关键 向 量 为 正 交集 合 ， 即 满足 条 件 

n Jb k=j 

wx = bj (2.50) 


那么 ， 联 想 记忆 是 完全 的 。 
现在 ， 假 定 关键 向 量 满足 式 (2.50) ， 那 么 联想 记忆 的 存储 能 力 的 限制 是 多 大 呢 ? 换 句 话 
说 ， 能 可 靠 存 储 模式 的 最 大 数量 是 多 少 呢 ? 这 一 基本 问题 的 答案 主要 在 于 记忆 和 矩阵 M 的 秩 。 
所 谓 一 个 矩阵 的 秩 指 的 是 抢 阵 中 相互 不 相关 的 行 ( 列 ) 数 。 就 是 说 ， 如 果 r 是 这 样 一 个 ! m 
EMEA, EBA r 生 min(1 ,mm)。 在 相关 记忆 中 ， 记 忆 和 矩阵 M 是 mx m HME. EH m 是 
输入 空间 的 维 数 。 因 此 ， 记 忆 和 矩阵 M 的 秩 受 维 数 m 的 限制 。 我 们 因而 可 以 正式 地 说 准确 无 
误 地 存储 在 相关 敌阵 记忆 中 的 模式 数目 决 不 可 能 超过 输入 空间 的 维 数 。 
在 实际 生活 中 ， 我 们 通常 会 发 现 提供 给 联想 记忆 的 关键 模式 既 不 是 正 交 的 ， 也 不 是 彼此 
高 度 分 离 的 。 因 此 由 式 (2.34) 的 记忆 算 阵 所 表征 的 相关 矩阵 记忆 有 时 会 很 混乱 而 且 容 易 产 生 
错误 。 也 就 是 说 ， 记 忆 有 时 会 偶尔 识别 出 或 联想 以 前 从 未 见 到 或 相关 联 的 模式 。 为 了 说 明 联 
想 记 忆 的 这 一 属性 ， 考 虑 一 个 关键 模式 集合 
| Xcey | 2X1 ,Ka 57 X 
和 一 个 相关 记忆 模式 集合 
[Yami Yi Yoo" Yq 
为 了 表示 线性 信号 空间 的 关键 模式 密切 性 ， 我 们 引入 相似 度 (community) 的 概念 。 我 们 将 模式 
集合 {x | 的 相似 度 定义 为 集合 中 任意 两 个 模式 x 和 x 内 积 wx 的 下 界 。 假 定 M 表示 由 对 
关键 模式 集合 {x | 和 与 式 (2.34) 对 应 的 记忆 模式 集合 iy | 的 联想 记忆 训练 导致 的 记忆 算 
o BERR Xo | 中 的 每 个 模式 为 单位 向 量 ( 即 具有 单位 能 量 的 向 量 )， 对 于 {x | 中 挑选 出 
的 刺激 x; 所 对 应 的 记忆 响应 y 由 式 (2.39) 给 出 。 进 一 步 假 设 
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XX; > Y, Xk ej (2.51) 
如 下 界 yY 足 够 大 ， 那 么 记忆 不 能 将 响应 y FRA Ix, i 中 其 他 任何 一 个 的 关键 模式 区 分 开 来 。 
假如 该 集合 的 关键 模式 具有 
X = 区 +YV (2.52) 
的 形式 ， 其 中 v 是 随机 向 量 ， 记 忆 很 有 可 能 识别 出 %， 并 联想 出 向 量 y 而 不 是 原来 实际 用 
来 训练 的 模式 对 ; x) 和 y 表示 以 前 从 未 见 过 的 一 对 模式 。 这 种 现象 可 以 称 为 动物 逻辑 
(animal logic)， 它 完全 没有 逻辑 (Cooper, 1973 )。 


2.12 自 适 应 


在 执行 某 个 感 兴趣 的 任务 过 程 中 ， 我 们 常常 发 现 空间 是 学 习 过 程 中 的 一 个 基本 的 维 ， 而 
时 间 是 另外 一 个 维 。 在 2.10 节 讨 论 的 各 种 学 习 任 务 ( 例 如 控制 、 波 束 形成 等 ) 是 学 习 任 务 的 
时 空 性 质 。 从 昆虫 到 人 类 各 种 物种 都 有 一 种 表示 经 验 的 时 间 结 构 的 本 能 。 这 种 表示 使 动物 可 
能 让 它 的 行为 适应 它 的 行为 空间 中 事件 的 时 间 结 构 (Gallistel, 1990) 。 

从 理论 上 讲 ， 当 神经 网 络 处 于 一 个 静态 的 环境 ( 即 环境 的 统计 特性 不 随时 间 变 化 )， 网 络 
对 环境 的 重要 统计 性 质 可 以 在 教师 监督 下 进行 学 习 。 特 别 是 ， 网 络 的 突 触 权 值 可 以 通过 网 络 
与 代表 环境 的 数据 集 的 训练 过 程 而 计算 得 到 。 一 旦 训练 完成 ， 网 络 的 突 触 权 值 就 可 以 捕获 环 
境 的 基本 统计 结构 ， 随 后 就 可 以 “冻结 "它们 的 值 。 这 样 一 来 ， 学 习 系 统 依靠 这 种 或 那 种 形式 
的 记忆 ， 回 忆 或 者 利用 过 去 的 经 验 。 

然而 ， 环 境 往往 是 非 静止 的 ， 即 由 环境 产生 的 承载 信息 的 信和 号 的 统计 参数 随 着 时 间 发 生 
变化 。 在 这 种 情况 下 ， 传 统 的 有 监督 学 习 方式 是 不 适合 的 ， 因 为 网 络 没有 相应 的 必要 的 方法 
来 跟踪 它 所 处 环境 的 统计 变化 。 为 了 克服 这 些 不 足 ， 希 望 神经 网 络 最 好 可 以 以 一 种 实时 的 方 
A, 不 断 地 根据 输入 信和 号 的 变化 及 时 调整 自由 参数 。 因 而 自 适 应 系统 针对 每 一 个 不 同 的 输入 
作出 新 的 响应 。 换 言 之 ， 自 适应 性 系统 的 学 习 过 程 永 不 停息 ， 系 统 在 进行 信号 处 理 的 同时 进行 
学 习 。 这 种 形式 的 学 习 就 叫做 持续 学 习 (continuous leaming) 或 飞翔 式 学 习 (leaming-on-the-fly)。 

线性 自 适 应 滤波 器 就 是 设计 用 来 作为 持续 学 习 的 。 它 是 建立 在 线性 组 合 器 上 的 ( 即 在 线 
性 模式 下 运算 的 单 神经 元 )。 尽 管 它们 的 结构 简单 (也 许 正 是 因为 如 此 )， 它 们 才 被 广泛 地 应 
用 于 各 种 不 同 领域 当中 ， 如 雷达 、 声 纳 、 通 信 、 地 震 学 和 生物 医疗 信号 处 理 。 线 性 自 适应 性 
滤波 器 的 理论 已 经 发 展 到 了 一 个 高 度 成 熟 阶段 (Haykin,1996; Widrow and Steams, 1985 )。 但 是 
非 线性 自 适应 性 过 滤器 还 未 能 达到 同样 的 水 准 "7。 

有 具有 持续 学 习 特 性 且 以 神经 网 络 作 为 它 的 实现 工具 ， 我 们 必须 要 解决 的 问题 是 : 神经 网 
络 如 何 使 它 的 行为 适应 它 的 行为 空间 中 输入 信号 变化 的 时 间 结 构 。 解 决 这 一 基本 问题 的 一 个 
方面 是 认识 到 非 静 止 过 程 的 统计 特性 通常 变化 很 慢 ， 其 过 程 在 一 个 足够 短 的 时 间 内 考虑 为 伪 
平稳 的 。 例 如 : 

。 产生 语音 信号 的 机 制 在 10 至 30 毫秒 内 可 认为 是 基本 平稳 的 。 

。 在 几 秒 内 从 海洋 表面 返回 的 雷达 保持 基本 平稳 。 

。 对 长 期 天 气 预报 ， 以 分 钟 计 的 天 气 数据 可 认为 基本 平稳 。 

。 在 以 月 和 年 计 的 长 期 趋势 中 ， 以 天 计 的 股市 数据 可 认为 基本 平稳 。 

因此 我 们 可 利用 随机 过 程 的 伪 平 稳 性 质 ， 根 据 输 入 数据 的 统计 波动 在 某 些 固定 的 时 间 间 
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隔 内 重新 训练 神经 网 络 以 扩展 它 的 应 用 。 例 如 ， 这 种 方法 可 以 适合 处 理 股 市 数据 。 
对 学 习 的 更 好 的 动态 方法 , 我们 可 以 如 下 处 理 : 
。 对 输入 数据 挑选 足够 短 的 时 间 窗 口 ， 使 其 可 以 被 认为 是 伪 稳定 的 ， 利 用 该 数据 训练 
网 络 。 
。 当 收 到 一 个 新 的 数据 样本 时 ， 丢 弃 最 早 的 数据 样本 ， 向 后 移动 一 个 时 间 单 位 为 新 样 
本 留 出 空间 ， 更 新 窗口 。 
。 利用 更 新 的 数据 窗口 重新 训练 网 络 。 
。 在 连续 的 基础 上 重复 这 个 过 程 。 
从 而 我 们 可 以 利用 时 序 例 子 使 网 络 经 过 持续 训练 在 神经 网 络 设计 中 建立 时 间 结 构 。 根 据 
这 个 动态 方法 ,神经 网 络 可 看 作 是 由 线性 自 适应 滤波 器 推广 的 非 线 性 自 适应 滤波 器 。 但 是 为 
了 非 线 性 自 适应 滤波 器 的 这 个 动态 方法 可 行 ， 可 用 的 资源 必须 足够 快 使 得 在 一 个 采样 周期 内 
完成 所 有 描述 的 计算 。 只 有 这 样 滤波 器 才能 和 输入 变化 保持 同步 。 


2.13 学 习 过 程 的 统计 性 质 


本 章 的 最 后 部 分 讨论 学 习 的 统计 方面 。 在 这 里 当 神 经 网 络 通过 一 个 学 习 算法 循环 训练 
时 ， 我 们 所 关心 的 不 是 权 向 量 w 的 演变 ， 而 是 目标 函数 /(x) 和 由 神经 网 络 所 实现 的 “实际 ” 
函数 F(x，w) 之 间 的 偏差 ， 其 中 向 量 x 表 示 输 入 信号 。 这 种 偏差 以 统计 的 方式 表述 。 
神经 网 络 只 是 通过 训练 可 以 对 一 个 物理 现象 或 环境 的 经 验 知识 进行 编码 的 方式 之 一 。 
“经 验 知识 "这 里 指标 志 着 环境 特征 的 一 组 测量 。 更 具体 地 ， 考 虑 一 个 随机 现象 的 例子 ， 它 由 
包含 有 一 组 独立 变量 的 随机 向 量 X 和 表示 一 个 依赖 变量 的 随机 标量 D 描述 。 随 机 向 量 X AY 
元 素 可 以 带 有 它们 自己 不 同 的 物理 含义 。 依 赖 变 量 D 是 一 个 标量 的 假设 仅仅 是 为 了 简化 说 
明 而 不 失 一 般 性 。 同 时 假设 我 们 有 以 jz: 过 ;表示 的 随机 向 量 避 的 六 个 实现 ， 以 及 用 1 dg 过， 
表示 的 随机 标量 D 的 一 组 对 应 的 实现 。 这 些 实现 (测量 ) 构 成 了 用 
T = |(xi, di) 1 . (2.53) 
表示 的 训练 样本 。 通 常 我 们 不 知道 XX 和 D 之 间 的 确切 函数 关系 ， 所 以 我 们 通过 提出 模型 
(White, 1989a) 
D = f(X)+e (2.54) 
进行 讨论 ， 其 中 f(: ) 是 其 自 变量 向 量 的 一 个 确定 性 函数 ，s 是 一 个 随机 期 望 误差 ， 它 代表 了 
我 们 对 D 和 义 之 间 依 赖 关 系 的 “无 知 ”"。 由 式 (2.54) 描 述 的 统计 模型 称 作 回归 模型 ; 它 被 描 
述 在 图 2-20a 中 。 期 望 误差 一般 是 一 个 带 有 均值 为 0 和 正 的 发 生 概率 的 随机 变量 。 在 此 基 
础 上 ， 图 2-20a 的 回归 模型 有 两 条 有 用 的 性 质 : 
1. 给 定 任何 实现 x， 期 望 误差 。 的 均值 为 零 ; 即 
E[e |x] =0 (2.55) 
其 中 刁 是 数学 期 望 操作 符 。 作 为 此 性 质 的 一 个 推论 ， 我 们 可 以 说 回归 画 数 f(x) 在 给 定 输入 
X= x 的 情况 下 是 模型 输出 D 的 条 件 均值 ， 表 示 为 
f(x) = ELD |x] (2.56) 
这 一 等 式 直接 根据 式 (2.55) 从 式 (2.54) 得 到 。 
2. 期 望 误 差 s 与 回归 函数 f(X) 是 不 相关 的 ; 即 
E[ef(X)] = 0 (2.57) 
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这 个 性 质 就 是 著名 的 正 交 性 原理 ， 它 说 明 我 们 能 够 通过 输入 和 获取 的 关于 也 的 信息 都 已 被 
包含 进 回归 函数 ,AX) 之 中 。 式 (2.57) 容 易 证 明 如 下 : 
Elef(X)] = ELE[ef(X) | x]] = ELf(X)Ele|x]] = ELAX) .0] =0 
图 2-20a 的 回归 模型 是 对 随机 环境 的 一 个 “数学 "描述 。 它 的 目的 是 用 向 量 和 解释 或 预测 
依赖 变量 Do B 2-20b 是 对 应 环境 的 “物理 "模型 。 这 第 二 个 基于 神经 网 络 的 模型 的 目的 是 将 
由 训练 样本 了 表示 的 经 验 知识 编码 进 对 应 的 一 组 突 触 权 值 向 量 w， 表 示 成 
可 -> W (2.58) 
实际 上 ， 神 经 网 络 提 供 了 一 个 对 图 2-200 的 回归 模型 的 “近似 ”。 令 神经 网 络 对 输入 向 量 x 的 
实际 啊 应 表示 为 随机 变量 
Y = F(X,w) (2.59) 
其 中 F(: ,w) 是 由 神经 网 络 实现 的 输入 -输出 函数 。 给 定式 (2.53) 的 训练 数据 7 ， 权 值 向 量 
w 通 过 最 小 化 代价 函数 


€(w) = 3 Da - F(x,,w))? (2.60) 





a) 回归 模型 (数学 的 ) “ b) 神 经 网 络 模型 (物理 的 ) 
图 2-20 随机 环境 模型 


获得 ， 其 中 使 用 因子 1/2 是 为 了 与 早先 的 表示 法 和 后 面 各 章 中 的 表示 法 保持 一 致 。 除 了 比例 
因子 1/2 以 外 ， 代 价 函 数 6(w) 是 期 望 响应 d 和 神经 网 络 实际 响应 y 之 间 在 整个 训练 数据 集 9 
上 的 平方 差 。 使 用 式 (2.60) 作 为 代价 函数 意味 着 采用 了 “成 批 "训练 ， 所 谓 “ 成 批 ” 训 练 ， 我 们 
是 指 对 神经 网 络 突 触 权 值 的 调整 是 在 整个 训练 样 例 集 上 进行 的 ， 而 不 是 在 单个 样 例 的 基础 上 
进行 。 

令 符号 Ez 表示 作用 于 整个 训练 样本 了 的 均值 算 子 。 在 均值 算 子 Ey 作用 之 下 的 变量 和 它 
们 的 函数 表 为 x 和 ds (x,d) 对 代表 训练 样本 了 中 的 一 个 例子 。 与 此 相对 照 ， 统 计 期 望 算 子 
E 作用 在 随机 变量 六 和 D 的 整个 总 体 上 ，5 是 它 的 一 个 子 集 。 算 子 EE 和 Es 之 间 的 差异 应 在 
下 面 的 讨论 中 仔细 区 分 。 

依据 式 (2.58) 中 描述 的 变换 ， 我 们 可 以 交换 的 使 用 F(x,w) 和 F(x, 了 ) 并 且 因 此 将 式 
(2.60) 重 写 为 等 价 形式 





Ew) = LE [Cd - F(x,9))] (2.61) 


对 变 元 (d - F(x, 了 )) 加 减 f(x)， 再 利用 式 (2.54)， 我 们 可 写成 
d- F(x,J) = (d =- f(x)) + f(x) - F(x,T)) = e+ (f(x) - F(x,T)) 
ENE GORRAS, 然后 展开 项 ， 我 们 可 以 将 代价 函数 6(w) 重 构 为 等 价 形式 


E(w) = Ele ] + 三 3 Esl) — F(x,T))?] + Eg lel f(x) - F(x,9))] (2.62) 
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然而 ， 式 (2.62) 右 边 的 最 后 的 一 项 期 望 由 于 下 面 两 个 原因 而 值 为 0: 
。 通过 算 子 E 的 解释 ， 依 据 式 (2.57) 期 望 误差 s 与 回归 函数 f(x) 是 不 相关 的 。 
。 期 望 误差 s 属于 图 2- 20a 的 回归 模型 ， 而 有 逼近 函数 F(x,w) 属 于 图 2-20b 的 神经 网 络 
模型 。 
从 而 ， 式 (2.62) 化 为 
E(w) = FEl] + BLO - F(x,9))] (2.63) 


式 (2.63) 右 边 的 第 一 项 是 在 训练 样本 7 之 上 计算 的 期 望 (回归 模型 的 ) 误 差 s 的 方差 。 这 一 项 
代表 内 在 误差 ， 因 为 它 独立 于 权 值 向 量 w。 就 最 小 化 关于 w 的 代价 函数 6(w) 而 言 ， 它 可 以 
被 忽略 。 这 样 ， 最 小 化 代价 函数 6(w) 的 特定 权 值 向 量 值 w* 也 将 最 小 化 回归 水 fx) AG 
函数 F(x,w) 之 间 的 总 体 平均 平方 距离 。 换 言 之 ， 对 F(x,w) 作 为 期 望 响 应 d 的 预测 器 的 有 
效 性 的 自然 测度 定义 为 

Zou F(x,w)) = Eyl (f(x) - F(x,3))] (2.64) 
这 一 结果 具有 根本 性 的 重要 意义 ， 因 为 它 为 由 于 使 用 F(x,w) 作 为 对 f(x) 的 近似 而 产生 的 偏 
置 和 方差 问 的 折 囊 提供 了 数学 基础 (Ceman et al. ,1992) 。 


偏 置 /方差 困境 


回忆 式 (2.56) 的 使 用 ， 我 们 可 将 f(x) 和 F(x,w) 间 的 平方 距离 重新 定义 如 下 : 

Ly (f(x), F(x,w)) = Ey[(E[D | X = x] - F(x,T))] (2.65) 
这 一 表达 式 也 可 以 看 作 是 在 整个 训练 样本 之 上 计算 的 回归 函数 f(x) = EL DIX =x) ABE 
函数 F(x,w) 之 间 的 估计 误差 的 平均 值 。 注 意 ， 条 件 均 值 E[ D1X = xj 关 于 训练 数据 样本 了 为 
一 个 常量 期 望 。 进 一 步 我 们 发 现 
E[D|X =x] - F(x,9) = (E[D | X = x] —- Ez[ F(x, )]) + (Ez[F(x,J)] - F(x,T)) 
其 中 我 们 只 是 加 上 和 了 减 去 了 均值 Ey [ F(x, 了 )]。 通 过 类 似 于 从 式 (2.61) 中 获得 式 (2.62) 那 样 
的 方式 进行 推导 ， 我 们 可 将 式 (2.65) 重 写 为 两 项 之 和 ( 见 问题 2.22): 


Ly (f(x), F(x,T)) = B’ (w) + Vw) (2.66) 

其 中 B(w) 和 V(w) 各 自 定义 如 下 : 
B(w) = Ey[ F(x,T)] - E[DIX= x] (2.67) 
V(w) = Eyl(F(x,9)— Ez[ F(x,T )])] (2.68) 


现在 ， 我 们 作出 两 点 重要 说 明 : 

1. 项 B(w) 是 逼近 函数 F(x,3 ) 的 平均 值 对 于 回归 函数 f(x) = EL DIX=x] 的 偏 置 。 这 一 
项 说 明 由 函数 F(x,w) 定 义 的 神经 网 络 不 能 准确 地 允 近 回归 函数 f(x) = ELDIX=x], Rei] 
因此 可 以 将 偏 置 B(w) 看 作 一 个 逼近 误差 。 

2. 项 V(w) 是 在 整个 训练 样本 9 之 上 测量 的 逼近 水 数 F(x,w) 的 方差 。 这 个 项 说 明 包 含 
在 训练 样本 上 中 的 关于 回归 函数 f(x) 的 信息 是 不 充分 的 。 我 们 因此 可 将 方差 V(w) 看 作 是 
估计 误差 的 体现 。 

图 2-21 显示 目标 函数 和 逼近 函数 间 的 关系 ， 以 及 估计 误差 也 就 是 偏 置 和 方差 是 如 何 积累 
的 。 为 了 取得 好 的 整体 性 能 ， 副 近 函 数 F(x,w) = F(x,9 ) 的 偏 置 和 方差 都 必须 很 小 才 行 。 
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图 2-21 说 明 求 解 回 归 问 题 的 各 种 误差 源 


不 幸 的 是 ,我 们 发 现在 以 通过 例子 学 习 并 且 训 练 样本 大 小 是 固定 的 神经 网 络 里 ， 获 得 小 
偏 置 的 代价 是 方差 大 。 对 于 单个 神经 网 络 ， 只 有 当 训 练 样本 的 数量 无 限时 ， 我 们 才能 指望 同 
时 消除 偏 置 和 方差 两 者 ， 于 是 我 们 有 偏 置 /方差 困境 ， 其 结果 是 不 可 避免 的 慢 收 全 性 ( Ceman 
et al. ,1992)。 偏 置 /方差 困境 可 以 被 避免 ， 如 果 我 们 愿意 有 和 目的 的 引入 偏 置 ， 这 样 使 得 消除 
RAAB BATEMAN HE, CRS, ， 我 们 必须 保证 在 网 络 设计 中 带 人 的 偏 置 是 无 害 的 。 例 
如 ， 在 模式 分 类 的 情况 下 ， 在 下 述 意 义 之 下 偏 置 被 认为 是 “无 害 的 "， 那 就 是 只 有 当 我 们 试图 
推断 未 在 预料 的 分 类 之 中 的 回归 时 ， 偏 置 才 大 大 提高 均 方 误差 。 一 般 来 讲 ， 必 须 为 每 个 特定 
的 应 用 设计 偏 置 。 达 到 这 样 目 标的 一 个 实用 的 方法 是 使 用 约束 网 络 结构 ， 这 样 的 网 络 结构 通 
常 比 通用 结构 有 更 好 的 性 能 。 比 如 ， 约 束 以 及 由 此 而 来 的 偏 置 可 以 使 用 如 下 的 两 种 方式 采取 
先 验 知识 的 形式 能 和 人 网络 设 计 中 : (1) 共 享 权 值 ， 其 中 网 络 的 几 个 突 触 由 一 个 权 值 控制 ， 和 / 
或 (2) 给 网 络 中 每 个 神经 元 分 配 局 部 接收 域 (local receptive field)， 就 像 用 多 层 感 知 器 识别 光 字 符 
问题 中 所 展示 的 那样 (LeCun et al. ,1990a )。 这 些 网 络 设计 问题 在 1.7 节 中 简略 讨论 过 。 


2.14 统计 学 习 理 论 
在 这 一 节 里 ， 我 们 通过 描述 一 种 学 习 理 论 来 继续 讨论 神经 网 络 的 统计 特性 。 这 种 学 习 理 论 从 
数学 角度 论述 如 何 控制 神经 网 络 的 推广 能 力 的 根本 问题 。 讨 论 在 监督 学 习 下 进行 。 

监督 学 习 模型 包括 三 个 相互 关联 的 部 分 ， 如 图 as 
2-22 所 示 ， 从 数学 角度 可 抽象 如 下 (Vapnik, 1992, re 
1998): a Fy (x 

1. 环境 。 环 境 是 静态 的 ， 提 供 向 量 x， 它 带 有 ae 
一 固定 但 未 知 的 累积 (概率 ) 分 布 函 数 。 | 

2. 教师 。 教 师 为 每 个 从 环境 中 获得 的 输 人 向量 ， ae 
x 提供 一 个 期 望 响应 4， 其 根据 是 条 件 累积 概率 分 
布 函数 F(x1d)， 它 同样 是 固定 但 未 知 的 。 期 望 响 | ty dy 
应 d 和 输入 向 量 x 的 关系 为 - 

d = f(x,v) (2.69) > * bs mp Fix. w) = 4 


EF o EREM, RAIE ARH”. 
3. 学 习 机 器 (算法 )。 学 习 机 器 (神经 网 络 ) REK 
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现 一 组 输入 - 输出 映射 函数 ， 描 述 为 

y = F(x,w) (2.70) 
其 中 y 是 学 习 机 器 对 输入 x 的 实际 响应 ，w 是 一 组 选 自 参数 ( 突 触 权 值 ) 空 间 W 的 自由 参数 
( 权 值 )。 

式 (2.69) 和 (2.70) 是 依据 用 于 完成 训练 的 样 例 写 的 。 

监督 学 习 问题 就 是 以 最 优化 的 方式 选择 逼近 期 望 响应 d 的 特定 函数 F(x,w) 的 问题 ， 这 
里 的 “最 优化 "是 以 某 种 统计 意义 定义 的 。 这 种 选择 本 身 基于 在 式 (2.53) 中 描述 的 N 个 独立 
同 分 布 的 ( 这) 训练 样本 ， 为 表示 方便 重 写 如 下 : 

F = (x; d), 
EER H LARK RRR) RA Fy (x, d) 从 了 中 抽取 出 来 ， 像 其 他 分 布 函 
数 一 样 ，Fx.o(x,d) 同 样 是 固定 但 未 知 的 。 监 督学 习 的 可 行 性 取决 于 这 样 一 个 问题 : 训练 样 
本 |(xi ,di)} 是 否 包 含 足 够 的 信息 来 构建 具有 良好 推广 性 能 的 学 习 机 器 ? 对 这 个 问题 的 一 个 
回答 在 于 使 用 由 Vapnik and Chervonenkis (1971) 所 开创 的 工具 。 特 别 是 ， 我 们 通过 将 监督 学 习 
问题 视 为 一 个 逼近 问题 开展 讨论 。 这 涉及 寻找 期 望 画 数 f(x) 的 最 好 近 函数 y = 
F(x,W) 

用 L(d,F(x,w)) 度 量 对 应 于 输入 向 量 x 的 期 望 响应 d A La SK AE By 
F(x,W) 之 间 的 损失 或 差异 。 一 个 普遍 的 对 损失 Ld, F(x,w)) 的 定义 是 二 次 损失 函数 ， 它 定 
SOW d= f(x) AUAE F(x,w) 之 间距 离 的 平方 ， 表 示 为 ' 

L(d,F(x,w)) = (d - F(x,w))’ (2.71) 
式 (2.64) 的 距离 平方 是 对 Ld, F(x, w ) 的 总 体 -平均 扩展 ， 其 平均 在 所 有 样 例 对 (x, d) 之 上 
计算 。 

有 关 统 计 学 习 理 论 的 大 部 分 文献 都 是 处 理 特定 的 损失 。 这 里 讨论 的 统计 学 习 理 论 的 重要 
一 点 是 它 不 严格 依赖 于 损失 函数 Ld, Fa, w ) 的 形式 。 在 本 节 后 面 我 们 将 限制 讨论 具体 的 
损失 函数 。 

损失 的 期 望 值 由 风险 泛 函 


R(w) = JECA, F(x,w)) dFx,0(x, d) (2.72) 
定义 ， 其 中 积分 是 对 样 例 对 (x, a) 的 所 有 可 能 值 进行 的 多 重 积 分 。 监 督学 习 的 目标 是 最 小 化 
逼近 函数 1 F(x,w),wEWI 之 上 的 风险 泛 函 Rw). Rm, IREZ A R(w) 的 求 值 是 复杂 
的 ， 因 为 联合 累积 分 布 函数 Fy o(x,d) 通 常 是 未 知 的 。 在 监督 学 习 中 ， 惟 一 能 够 获取 的 信息 
被 包含 在 训练 数据 集 了 中。 为 了 克服 这 一 数学 上 的 困难 ， 我 们 采用 经 验 风 险 最 小 化 归纳 原则 
(Vapnik ,1982 )。 这 一 原则 完全 依赖 于 训练 数据 集 了 的 可 用 性 ， 这 使 得 它 非 常 适合 于 神经 网 络 
的 设计 原理 。 
一 些 基本 定义 
在 继续 讨论 之 前 ， 我 们 暂 离 主题 简要 介绍 一 些 将 要 在 后 面 的 讨论 中 使 用 的 基本 定义 。 
依 概 率 收敛 ”考虑 随机 变量 序列 a ,a,,，… ay 。 如 果 对 任意 5>0， 概 率 关 系 
P(lay-al>8)7>0 “N> (2.73) 
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成 立 ， 意 味 这 一 随机 变量 序列 依 概 率 收 伍 到 随机 变量 ao。 

上 确 界 和 下 确 界 ”表示 为 sup % 的 非 空 的 标量 集合 4 的 上 确 界定 义 为 这 样 的 最 小 标量 x, 
对 于 所 有 y€ 允 ， 有 x 宇 yY。 如 果 没 有 这 样 的 标量 存在 ， 我 们 说 非 空 集合 4 的 上 确 界 是 w。 类 
in, RAM PR, Bink 表示 ， 被 定义 为 这 样 的 最 大 标量 x， 对 于 所 有 yE€ MA 有 x 
y。 如 果 这 样 的 标量 不 存在 ， 我 们 说 非 空 集合 4 的 下 确 界 为 - ©, 

经 验 风险 泛 浮 ”给 定 训练 样本 了 = |(x,, d) ， 经 验 风险 泛 函 用 损失 函数 L( 4d;, F(x, 
w) ) 定 义 为 


wW) = i DC F(x;,w)) (2.74) 


Powe Be FBX Lld, F(x, w)) HIRE, L(d, F(x,W)) 的 基本 分 布 由 联合 累积 
分 布 函数 Fy (x, d) 定 义 。 令 W(c) 为 这 一 函数 集合 的 任意 非 空子 集 ， 使 得 


We) = {w:] LCa, F(x.w)) > cf (2.75) 


其 中 cE (- m ,+o%)。 称 经 验 风险 泛 函 是 严格 ( 非 平凡 ) 一 致 的 ， 如 果 对 任意 子 集 W(e ) ， 
面 的 依 概率 收敛 性 成 立 : 


inf Ros(wWw) > inf R(w), 当 N oa (2.76) 
we We) we Wc) 


有 了 这 些 定义 ， 我 们 可 以 继续 讨论 Vapnik 的 统计 学 习 理 论 。 
经 验 风 险 最 小 化 原则 


经 验 风险 最 小 化 原则 的 基本 思想 就 是 处 理 式 (2.74) 定 义 的 经 验 风 险 泛 函 Re(w)。 这 一 
新 的 泛 函 与 式 (2.72) 的 风险 泛 函 的 不 同 之 处 在 于 两 个 期 望 方 式 : 
1. 它 不 显 式 地 依赖 未 知 的 分 布 函数 Fy, (x, d)o 
2. 理论 上 ， 它 能 对 权 值 向 量 w 最 小 化 。 
emp BFK, Worp ) 表 示 最 小 化 式 (2.74) 中 的 经 验 风险 泛 函 R onp (w) 的 权 值 向 量 和 对 应 的 
wa. Bis, $ w, AF (x, w, ) 表 示 最 小 化 式 (2.72) 中 的 实际 风险 泛 函 R(w) 的 权 值 向 量 和 
对 应 的 映射 。w Fl Ww, 都 属于 权 值 空间 W。 我 们 现在 必须 考虑 的 问题 是 当 用 R(w,) 和 RR 
(Wow ) 间 的 差距 度量 时 ， 近 似 映 射 F(x, wo ) 与 期 望 映射 (x,w, ) 相 “接近 ”的 条 件 。 
IRAE ww, ARZA Rw" ) 决 定 了 如 下 定义 的 随机 变量 的 数学 期 望 : 
Z = L(d,F(x,wx )) (2.77) 
相反 ， 经 验 风 险 泛 函 Rol W ) 是 随机 变量 Ze 的 经 验 (算术 ) 平 均值 。 根 据 概率 论 的 主要 理 
论 之 一 的 大 数 定律 ， 在 一 men 我 们 发 现 当 训练 样本 5 无 穷 大 时 ， 随 机 变量 Zy 的 经 验 
均值 收敛 于 它 的 期 望 值 。 这 一 事实 为 使 用 经 验 风 险 泛 函 Ro (w) 来 代替 风险 泛 函 R(w) 提 供 
了 理论 证 据 。 然 而 ， EENT Z 的 经 验 均值 收敛 于 它 的 期 望 值 ， 就 没有 理由 指望 最 小 化 
经 验 风 险 泛 函 R。,(w) 的 权 值 向 量 Wy [DPE SS BME RUBE BRR Cw) 
我 们 可 以 按 下 述 的 方法 进行 ， 以 近似 的 方式 满足 这 一 需要 。 如 果 经 验 风险 泛 函 Repl W) 
按 w 以 某 一 精度 s 一 致 地 通 近 原始 风险 泛 函 Rw), A Rs(w) 的 最 小 值 对 R(w) 的 最 小 值 
的 偏离 不 超过 2e。 从 形式 上 说 ， 这 意味 着 我 们 必须 施加 一 个 严格 条 件 使 得 对 任何 WC WA 
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s> 0, 概 率 关 系 

P(sup | RCw) - Ray (w) | > 2) 0 “4 N> (2.78) 
成 立 (Vapnik ,1982 ) 。 当 满足 式 (2.78) 时 ， 我 们 说 出 现 经 验 平均 风险 的 权 值 向 量 Ww 到 期 望 什 
的 一 致 收敛 。 等 价 地 ， 如 果 对 任何 指定 的 精度 <:， 我 们 能 对 某 > 0 确定 不 等 式 


P(sup | R(w) - Rew (w) | > €) < a (2.79) 
那么 ， 结 果 是 如 下 的 不 等 式 也 成 立 : 
P(R( Wem) ~ R(W,) > 2e) < a (2.80) 


换言之 ， 如 果 条 件 (2.79) 成 立 ， 那 么 至 少 以 概率 1 - a， 最 小 化 经 验 风 险 泛 函 R。(w) 的 解 
F(X, we ) 给 出 的 实际 风险 RC(wo, ) 与 真正 的 最 小 化 可 能 实际 风险 R(w, ) 的 偏差 不 会 超过 2e。 
确实 ， 条 件 (2.79) 意 味 着 如 下 的 两 个 不 等 式 以 概率 1 - a 同时 得 到 满足 (Vapnik,1982 ): 
R( Wem) - Remp (Wemp) < € (2.81) 
Rom (W,) - R(w,) < € (2.82) 
这 两 个 不 等 式 分别 定 义 了 真实 风险 和 经 验 风险 泛 函 在 W= w,,,, Al w= w。 的 差异 。 此 外 ， 由 于 
Wen FW, PHN A Remy CW) A R(w) 的 最 小 点 ， 于 是 有 


R ong (Wep) < Rem We) (2.83) 
通过 将 不 等 式 (2.81) 和 (2.82) 相 加 ， 然 后 使 用 (2.83)， 我 们 可 以 重 写 不 等 式 
R( Wem ) — R(W,) < 2e (2.84) 


同样 ， 由 于 不 等 式 (2.81) 和 (2.82) 同 时 以 概率 (1 - a) 得 到 满足 ， 所 以 不 等 式 (2.84) 也 一 样 。 
我 们 也 可 以 表达 为 不 等 式 
R( Wey) ~ RCw,) > 2e 
以 概率 a 成立， 这 是 对 (2.80) 的 重 述 。 
现在 ， 我 们 可 以 对 经 验 风 险 最 小 化 原则 从 三 个 相互 联系 的 部 分 做 一 个 形式 化 的 陈述 
(Vapnik, 1982, 1998) : 
1. 代替 风险 泛 函 RCw)， 构 建 经 验 风险 泛 函 
Reg (W) = 六 SLi, FOX) 
它 基于 独立 同 分 布 的 样本 训练 集 (x .d;), i= 1,2,°°,N 
2. 令 ws 表示 在 权 值 空间 W 上 最 小 化 经 验 风险 泛 函 的 权 值 向 量 。 那 么 只 要 经 验 风 险 泛 
PR Re。(w) 一 致 收敛 于 实际 风险 泛 函 RC(wos)， 当 训练 样本 的 数量 N 趋 于 无 穷 大 时 ，R。(w) 
依 概率 收敛 到 实际 风险 R(w)，wEW 的 最 小 可 能 值 。 
3. 由 
P( sup | RCW) - Rag Cw) I > e) 一 0 X N> ow 
定义 的 一 致 收敛 性 是 经 验 风 险 最 小 化 原则 一 致 性 的 充分 必要 条 件 。 
为 了 对 这 一 重要 原则 有 一 个 自然 解释 ， 我 们 给 出 如 下 分 析 。 在 学 习 机 器 开始 训练 之 前 ， 
所 有 通 近 函数 都 是 等 可 能 的 。 随 着 学 习 机 器 训练 的 进行 ， 与 训练 数据 集 {(xi , d) 以 ,相符 的 
那些 逼近 函数 F(x; ,w) 的 可 能 性 增加 了 。 当 训练 数据 集 的 数量 w 增长 时 ， 输 入 空间 因此 密 
集 起 来 ， 经 验 风 险 泛 函 R,(w) 的 最 小 点 依 概率 收敛 到 真实 风险 泛 函 R(w) 的 最 小 点 。 
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VC 维 


经 验 风险 泛 函 Re (WAREZ K Rw) BA ERE ERARA, E 
们 基于 称 为 Vapnik-Chervonenkis 维 ( 或 简称 VC 维 ) 的 重要 参数 ， 其 名 称 是 为 了 纪念 它 的 创立 者 
Vapnik 和 Chervonenkis, VC 维 是 对 由 学 习 机 器 实现 的 分 类 函数 族 的 容量 或 表示 能 力 的 测度 。 

为 了 以 适合 于 我 们 目的 的 方式 描述 VC 维 的 概念 ， 考 虑 二 值 模式 分 类 问题 ， 为 此 期 望 响 
应 写作 d€ 10,1i。 我 们 使 用 术语 二 分 (dichotomy) 来 指 二 值 分 类 函数 或 判定 规则 。 令 刍 表 示 由 
学 习 机 器 实现 的 二 分 的 总 体 ， 即 


F = | F(x,w):we W,F:R" W— 10,1} } (2.85) 
令 了 表示 输入 向 量 的 m- 维 空间 % 中 的 NN 个 点 的 集合 ， 即 
E = tx, E #;i = 1,2,.…,N| (2.86) 
— 4 BED PEL DRL EAT ANF ES, ME, ERRIA 
0, 对 xE YX, 
F(x,w) = F (2.87) 


今 Asy () 表 示 能 由 学 习 机 器 实现 的 不 同 二 分 的 数量 ，Ay (1) 表 示 在 所 有 1 内 | =1 WEE 
Ay (了 p) 的 最 大 值 ， 其 中 191 是 的 元 素 的 数量 。 我 们 说 多 被 凶 分 散 ， 如 果 A (£)=2', Bpan 
果 p 的 所 有 的 二 分 都 能 被 凶 中 的 函数 所 产生 。 1 
例 2.1 图 2-23 显示 了 包含 4 个 点 XX，%， | 

x, 和 x 的 一 个 二 维 输入 空间 %。 图 中 所 指示 的 
函数 Fy 和 F 的 判定 边界 分 别 对 应 于 正确 的 类 
(假设 ) 0 和 1。 从 图 2-23 F, RNA BM Fo 
导出 二 分 

D = | = jx = gl] 
另 一 方面 ， 函 数 F 导出 二 分 <= 

= 1F, = 1X Xt oS, = {x ,|| 
对 于 包含 4 个 点 的 集合 7Y， 基 i741 =4。 从 而 
Ag (8)= 2 = 16 





2-23 fil 2-1 的 图 开 


PE} FE (2.85) HHA AP RAF Be sh (2.86) PATS BF RIT IC, RIRE 
可 以 正式 地 定义 VC 维 如 下 (Vapnik and Chervonenkis, 1971; Keams and Vazirani , 1994; Vidyasagar, 
1997 ; Vapnik , 1998) : 

二 分 总 体 蔬 的 VC 维 是 被 对 所 分 散 的 最 大 集合 下 的 基数 。 

换言之 , FH VC 维 (写作 VCdim( 儿 )) 是 使 As (N) =2" 的 最 大 N。 用 更 熟悉 的 话说 ,分 
类 函数 集 { (x,w): WW |) VC 维 是 能 被 机 器 学 习 的 训练 样本 的 最 大 数量 ， 这 种 学 习 对 于 


分 类 函数 所 有 可 能 的 二 分 标记 是 无 错误 的 。 
例 2.2 考虑 输入 向 量 的 m 维 空间 % 中 的 一 个 简单 判定 规则 ， 它 由 
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Fy = o(wxt b) (2.88) 
描述 ， 其 中 x 是 一 个 m 维权 值 向 量 ，5 是 偏 置 。 激 活 函 数 p 是 一 个 阐 值 函数 ， 即 

Juks 人 vz 

0, v<0 

式 (2.88) 中 的 判定 规则 的 VC 维 给 出 如 下 : 

VCdim(#¥) = m +1 (2.89) 
为 了 说 明 这 一 结论 ， 考 虑 图 2-24 中 所 描绘 的 二 维 输入 空间 ( 即 m = 2) 的 情况 。 在 图 2-24a 
H, RIA x, x Alx 三 个 点 。 对 这 三 个 点 的 三 种 可 能 标记 包括 在 图 2-24a 中 ， 从 中 我 们 
很 容易 看 到 最 多 三 条 线 就 能 分 散 这 些 点 。 在 图 2-24b F, RIAA Xx, x, x AK, Am 
Mx 标记 为 0， 点 x 和 x 标记 为 1。 可 是 这 一 次 ， 我 们 看 到 点 x 和 xw 不 能 用 一 条 直线 与 点 
x, Fl x, 中 分 散 开 来 。 式 (2.88) 中 所 描述 的 m = 2 判定 规则 的 VC 维 因 此 为 3， 这 是 与 式 
(2.89) 相 符 的 。 


> 








b) 


图 2-24 例 2.2 的 一 对 两 维 数据 分 布 


例 2.3 用 VC 维 来 度量 分 类 (指示 器 ) 函 数 集 的 容量 ， 我 们 也 许可 能 期 望 带 有 很 多 自由 
参数 的 学 习 机 器 会 有 高 的 VC 维 ， 而 带 有 少数 的 自由 参数 的 学 习 机 器 会 有 低 的 VC 维 。 我 们 
现在 举 一 个 这 一 说 法 的 反例 5 。 

考虑 只 有 一 个 参数 的 指示 函数 族 ， 定 义 如 下 : 

f(x,a) = sgn(sin(ax)), aER 
其 中 sn ) 是 符号 函数 。 假 设 我 们 选择 任意 数 N, 需要 做 的 是 找到 能 被 分 散 的 N 个 点 。 这 
一 要 求 通过 选择 
x, = 10°, i= 1,2,°",N 
而 被 函数 集 f(x, a) 所 满足 。 为 了 将 这 些 数 据 分 成 由 序列 
dd 


所 确定 的 两 类 ， 我 们 根据 公式 
(1 ~ d;)10' 


a= (1 十 2 O~ 410) 
来 选择 参数 a 就 足够 了 。 这 样 我 们 得 出 结论 ， 带 有 单一 自由 参数 a 的 指示 函数 族 f(x, a) 的 
VC 维 是 无 穷 的 。 
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VC 维 的 重要 性 及 其 估计 


VC 维 是 一 个 与 几何 概念 的 维 没有 关系 的 纯粹 组 合 概 念 。 它 在 统计 学 习 理 论 中 扮演 着 一 
个 中 心 的 角色 ， 这 将 在 后 面 两 小 节 提 供 的 材料 中 看 出 来 。 从 设计 的 观点 看 ，VC 维 也 是 重要 
的 。 粗 略 地 说 ， 为 了 可 靠 地 学 习 一 个 类 所 需要 的 样本 的 数量 正比 于 那个 类 的 VC 维 。 因 此 ， 
对 VC 维 的 估计 需要 首先 关注 。 

在 一 些 情况 下 ，VC 维 由 神经 网 络 的 自由 参数 决定 。 然 而 在 大 多 数 实际 情况 下 ， 很 难 通 
过 分 析 的 手段 计算 VC 维 。 虽 然 如 此 ， 神 经 网 络 的 VC 维 的 界 经 常 是 容易 处 理 的 。 这 时 ， 下 
面 的 两 个 结论 具有 特殊 意义 ， 


1. 令 N 表 示 由 神经 元 构成 的 任意 前 馈 网 络 ， 阅 值 (Heaviside) 激 活 函 数 为 
l, ved 


gl) = to, v <0 
Na VC 维 为 OCW log W), AP 下 是 网 络 中 自由 参数 的 总 数 。 
这 第 一 个 结论 归功 于 Cover( 1968) 和 Baum and Haussler( 1989), 
2. 令 W 表 示 一 个 多 层 前 馈 网 络 ， 其 神经 元 使 用 一 个 sigmoid 激活 函数 


1 
ov) ~ 14 exp(— v) 


Ni VC 维 为 OCW), HP 到 是 网 络 中 自由 参数 的 总 数 。 


这 第 二 条 结论 归功 于 Koiran and Sontag(1996)。 他 们 得 出 这 一 结论 是 通过 首先 证 明 包 含 两 类 
神经 元 (一 类 是 线性 的 ， 另 一 类 使 用 立 值 激活 函数 ) 的 网 络 已 有 了 正比 于 W 的 VC 维 。 这 是 个 
相当 令 人 惊异 的 结论 ， 因 为 像 在 例 2.2 中 看 到 的 那样 一 个 纯 线 性 网 络 有 正比 于 多 的 VC 维 , 而 
根据 第 一 个 结论 一 个 纯 阔 值 神 经 网 络 有 一 个 正比 于 W log WH VC 维 。 接 着 ， 通 过 求助 于 两 种 
近似 就 得 到 关于 sigmoid 神经 网 络 的 理想 结论 。 第 一 ， 具 有 阔 值 激活 函数 的 神经 元 由 具有 大 突 
触 权 值 的 sigmoid 式 神经 元 近似 。 第 二 ， 线 性 神经 元 由 具有 小 突 触 权 值 的 sigmoid 神经 元 近似 。 

这 里 需 注意 的 重要 一 点 是 ， 多 层 前 馈 网 络 具 有 有 限 的 VC 维 。 


学 习 机 器 推广 能 力 的 构造 性 自由 分 布 界 


讨论 进行 到 这 里 ， 我 们 发 现 考 虑 二 值 模式 分 类 的 具体 情况 是 有 益 的 。 这 种 分 类 的 期 望 响 
应 定义 为 dE 10,1}。 相 应 的 损失 函数 只 有 如 下 两 个 可 能 值 ; 
0, #4 F(x,w) =d 
1, 其 他 
在 这 些 条 件 下 ， 分 别 在 式 (2.72) 和 (2.74) 中 定义 的 风险 泛 函 R(w) 和 经 验 风险 泛 函 Rap (w) 得 
到 如 下 解释 : 

。 ARZA R(wW) 是 分 类 错误 的 概率 ( 即 误差 率 )， 表 示 为 P(w) 

。 经 验 风险 泛 函 R,,(w) 是 训练 误差 ( 即 训练 阶段 发 生 错 误 的 频率 )， 表 示 为 v(w)。 

现在 ,根据 大 数 定律 (Gray & Davisson, 1986 ) ， 一 个 事件 发 生 的 经 验 频率 几乎 一 定 收敛 于 
那 一 事件 的 实际 概率 ， 只 要 试验 (假设 是 独立 同 分 布 的 ) 的 数目 趋 于 无 穷 大 。 在 这 里 讨论 的 情 





L(d, F(x,w)) = | (2.90) 
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况 下 ， 这 一 结论 意味 着 对 任何 权 值 向 量 w， 它 不 依赖 于 训练 集 ， 以 及 对 任何 精度 e>0， 下面 
条 件 成 立 : 
P(| P(w) - v(w)1> se)—0 M4 N> @ (2.91) 
其 中 ，w 是 训练 集 的 大 小 。 然 而 ， 请 注意 ， 条 件 (2.91) 并 不 意味 着 最 小 化 训练 误差 v(w) 的 
分 类 规则 ( 即 一 个 特定 的 权 值 向 量 w) 也 会 最 小 化 分 类 误差 概率 P(w)。 对 于 一 个 具有 充分 大 
的 数量 N 的 训练 集 来 说 ，v(w) 与 P(w) 的 接近 服从 一 个 更 强 的 条 件 ， 它 规定 下 面 的 条 件 对 
任何 e>0 都 成 立 (Vapnik ,1982 ): 
P(sup | P(w) -yw)1>es) 一 0 X N> o (2.92) 
在 这 种 情况 下 ， 我 们 就 说 训练 误差 频率 到 vw) = PRR o, 
VC 维 的 概念 在 一 致 收敛 的 速度 上 提供 了 一 个 界 。 特 别 ， 对 于 VC 维 为 h 的 分 类 函数 集 ， 
下 面 的 不 等 式 成 立 (Vapnik , 1982, 1998) : 
2 


Plsup | PCW) = vw) 1> 6) < (22°) exp(- en) (2.93) 


FOP ON 是 训练 样本 的 大 小 ，e 是 自然 对 数 的 底 。 为 了 获得 一 致 收敛 性 我 们 希望 不 等 式 (2.93) 
的 右边 对 于 大 N RED., AF epl- e W) 在 这 一 方面 是 有 帮助 的 ， 因 为 它 随 着 N 的 上 升 而 
指数 下 降 。 剩 下 的 因子 (2ew/j)” 代表 函数 族 多 = 1P(x,w);wE Wi 的 增长 函数 A (1) 当 
1> /> 1 时 的 界 ， 这 由 Sauer 引 理 “得 到 。 只 要 这 一 函数 不 要 增长 太 快 ， 右 边 会 随 着 NAF 
无 穷 大 而 趋 于 零 ， 如 果 VC Eh EARD, 这 一 要 求 就 得 到 满足 。 换 言 之 ， 有 限 的 VC 维 是 
经 验 风险 最 小 化 原则 的 一 致 收敛 性 的 充分 必要 条 件 。 如 果 输 入 空间 多 有 有 限 的 基数 ， 任 何 二 
DERI BAA KAS ABR VC 维 ， 虽 然 逆 命题 并 不 一 定 成 立 。 
令 a 表示 事件 


sup | P(w) - v(w) lee 


发 生 的 概率 。 那 么 ， 以 概率 1 - a， 我 们 可 以 说 对 所 有 权 值 向 量 wEW， 下 面 的 不 等 式 成 立 : 


P(w) < (w) +e (2.94) 
使 用 式 (2.93) 中 描述 的 界 和 概率 a 的 定义 ， 我 们 可 以 置 
- (22%) expl- e2N) (2.95) 


令 s(N,h,a) 表 示 满 足 式 (2.95) 的 特殊 值 。 由 此 ， 我 们 很 容易 得 到 下 面 的 重要 结论 (Vapnik， 
1992 ) : 





&(N,h,a) = #[iog( 2%) + 1] - Loga (2.96) 


我 们 称 (NN,h,a) 为 置信 区 间 ， 其 值 取 决 于 训练 样本 的 大 小 N 以 及 VC h 和 概率 a。 
式 (2.93) 中 以 es =&(N, 有 ,a) 描 述 的 界 在 最 坏 的 情况 P(w) = 1/2 下 获得 ,但 不 幸 的 是 并 
非 对 小 的 P(w) 成 立 ， 而 这 是 实际 中 感 兴趣 的 情况 。 对 于 小 的 P(w)， 通 过 考虑 如 下 修改 不 
等 式 (2.93) 可 获得 更 有 用 的 界 (Vapnik, 1982, 1998) ; 
W)—y k 2 
?| 
在 文献 中 ， 对 式 (2.97) 中 的 界 报导 的 不 同 结 果 ， 取 决 于 使 用 不 等 式 的 哪个 特定 形式 来 推导 。 


不 过 ， 它 们 都 有 一 个 相似 的 形式 。 从 (2.97) 推 出 ， 用 概率 1 - a， 并 且 同 时 对 于 所 有 wEW 有 





(2.97) 
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( Vapnik , 1992, 1998 ) 
P(w) < v(w) +6,(N,h,a,v) (2.98) 
HF 6,(N,h,a,v) 是 一 个 新 的 置信 区 间 ， 它 是 用 前 一 个 置信 区 间 (Nha) REMAN, FR 


(参看 习题 2.25): 
ei(N,h,a,v) = 28(N,h,0) 1+ Jis a) (2.99) 


这 第 二 个 置信 区 间 取 决 于 训练 误差 v(w)。 对 于 vy(w) = 0， 它 归 为 特殊 形式 
&@(N,h,a,0) = 4e(N,h,a) (2.100) 
我 们 现在 可 以 总 结 一 下 已 经 为 一 致 收敛 速度 推导 出 的 两 个 界 ; 
1. 一 般 情 况 下 ， 我 们 有 如 下 一 致 收敛 速度 的 界 : 
P(w) < v(w) +a (N,h,a,v) 
其 中 s (WN, 有 ,a,v) 如 式 (2.99) 中 的 定义 。 
2. 对 于 接近 于 0 的 小 的 训练 误差 vw), RITE 
P(w) < v(w) +4e(N,ja) 
它 为 真实 情况 中 的 学 习 提 供 了 一 个 相当 精确 的 界 。 
3. 对 于 接近 于 1 的 大 训练 误差 vw), RITAR 
P(w) < v(w) + &(N,h,a) 
结构 风险 最 小 化 


训练 误差 是 具有 某 一 权 值 向 量 的 学 习 机 器 在 训练 阶段 所 犯错 误 的 频率 。 相 似 地 ， 泛 化 误 
差 被 定义 为 当 用 机 器 以 前 没有 见 过 的 样本 测试 它 时 所 犯错 误 的 频率 。 这 里 假设 测试 数据 是 
从 与 训练 数据 相同 的 总 体 抽 取得 到 的 。 令 这 两 种 误差 分 别 表 示 为 vw (w) 和 v(W) ER 
ymin (WwW) 与 前 面 小 节 中 所 用 的 v(w) 相 同 ; 那里 我 们 是 用 vy(w) 来 简化 表示 法 。 令 h WAR 
数 族 |1F(x,w);wE | 关于 输入 空间 % 的 VC 维 。 那 么 ,依据 关 于 一 致 收敛 速度 的 理论 ,我们 
可 以 说 以 概率 1 - a, 对 于 训练 样本 的 数量 N > h ,以 及 同时 对 所 有 的 分 类 函数 (x,w) , 泛 
化 误差 Vee (w) 比 保证 风险 小 ， 保 证 风险 定义 担保 风险 (BEURE 
为 两 个 竞争 项 的 和 (Vapnik ,1992, 1998) > 

Vgua W) = Viran (W) +€ (N, h,a, Yaan) AN ee 

(2.101) 
其 中 置信 区 间 e,(N, 有 ,a ,vw ) 本 身 由 式 (2.99) PË 
定义 。 对 于 固定 数量 的 训练 样本 N， 训 练 误 
差 随 着 容量 或 VC 维 h 的 增加 而 单调 递减 ， 
而 置信 区 间 单 调 递增 。 因 此 ， 保 证 风险 和 泛 








置信 区 间 


训练 误差 





化 误差 都 经 历 最 小 值 。 这 些 趋 势 在 图 2-25 中 0 CER 
以 普通 的 方式 展示 出 来 。 在 达到 最 小 点 之 

前 ， 机 器 容量 对 于 训练 细节 的 数量 是 太 小 了 ， o c CN 

在 这 个 意义 上 , 说 学 习 问 题 是 过 定 的 图 2-25 ”训练 误差 、 置 信和 区间 和 


(overdetermined) 。 超 过 最 小 点 后 ， 学 习 问 题 是 担保 风险 之 间 的 关系 图 示 
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欠 定 的 ， 因 为 机 器 容量 对 于 训练 数据 是 太 大 了 。 

所 以 ， 解 决 监督 学 习 问 题 的 挑战 就 是 通过 使 机 器 容量 与 用 于 目前 问题 的 训练 数据 的 有 效 
数量 相 匹配 。 结 构 风 险 最 小 化 方法 通过 使 学 习 机 器 的 VC 维 成 为 一 个 控制 变量 来 提供 一 个 归 
纳 过 程 以 达到 上 述 目标 (Vapnik ,1992,1998 )。 上 有 具体 地 说 ， 考 虑 模式 分 类 器 的 集合 1 F(x，w); 
WEW), HEX n PAFIL RR ET 

F, = [F(x,w;wE W}, k=1,2,-+,n (2.102) 
使 得 我 们 有 (参看 图 2-25) 


FCF CCF, (2.103) 
其 中 符号 C 意 指 “ 包 含 于 "。 相 应 地 ， 各 个 模式 分 类 器 的 VC 维 满足 条 件 
hsh <-- ch, (2.104) 


这 意味 着 每 个 模式 分 类 器 的 VC 维 是 有 限 的 。 所 以 ， 结 构 风 险 最 小 化 方法 可 如 下 进行 : 

。 对 每 个 模式 分 类 器 ， 最 小 化 经 验 风险 ( 即 训练 误差 )。 

。 确定 具有 最 小 保证 风险 的 模式 分 类 器 8 * ; 这 一 特殊 机 器 提供 相互 竞争 的 训练 误差 

〈《 即 对 训练 数据 近似 的 质量 ) 和 置信 区 间 ( 即 逼近 函数 的 复杂 性 ) 之 间 的 最 好 的 折衷 。 

我 们 的 目标 就 是 找到 一 个 网 络 结构 ， 使 得 能 以 训练 误差 最 小 可 能 增加 为 代价 来 换取 VC 
维 的 降低 。 

结构 风险 最 小 化 原则 能 以 多 种 方法 实现 。 例 如 ， 我 们 可 以 通过 改变 隐藏 神经 元 的 个 数 来 
改变 VC 维 h。 特 别 是 ， 我 们 评估 全 连接 的 多 层 前 馈 网 络 的 总 体 ， 该 网 络 中 一 个 隐藏 层 的 神 
经 元 数量 以 单调 的 方式 增加 。 结 构 风 险 最 小 化 原则 表明 ， 这 一 总 体 中 最 好 的 网 络 是 保证 风险 
最 小 的 那 一 个 。 

VC 维 不 仅 是 结构 风险 最 小 化 原则 的 核心 ， 而 且 也 是 一 个 称 为 可 能 近似 正确 (PAC) 的 同 
等 强大 的 学 习 模 型 的 核心 。 在 下 节 讨 论 后 一 个 模型 ， 以 此 来 结束 本 章 处 理学 习 的 概率 和 统计 
方面 的 最 后 一 部 分 。 


2.15 可 能 近似 正确 的 学 习 模 型 


可 能 近似 正确 (probably approximately correct, PAC ) 的 学 习 模 型 归功 于 Valiant(1984)。 顾 名 思 义 ， 
PAC 模型 为 二 值 分 类 系统 中 的 学 习 和 推广 的 研究 提供 了 概率 框架 。 它 与 监督 学 习 紧 密 相关 。 

RIIM ER A Fo 一 个 时 的 集合 称 为 概念 (concept) ’ x 的 子 集 的 集合 称 为 概念 类 
(concept class)。 一 个 概念 的 例 (example) 是 具有 一 个 类 标签 的 论 域 中 的 一 个 对 象 (object)。 如 
果 该 例 是 概念 的 一 个 成 员 ， 我 们 称 之 为 正 例 (positive example); 如 果 该 对 象 不 是 概念 的 一 个 
成 员 ， 我 们 称 之 为 反例 (negative example)。 提 供 例 的 概念 称 作 目标 概念 。 对 于 一 个 目标 概念 
c， 我 们 需要 长 度 为 N 的 训练 数据 的 序列 ， 由 

F = i(x,,e(x) 1%, (2.105) 

表示 ， 其 中 可 能 包含 重复 的 例 。 例 x ,x,,… Xy 是 根据 某 个 固定 但 未 知 的 概率 分 布 从 环境 8 
中 随机 抽取 出 来 的 。 式 (2.105) 中 有 如 下 两 点 值得 注意 : 

。 目标 概念 c(x;) 被 当 作 从 % 到 10,11 的 一 个 函数 ， 而 且 c(x;) 假 定 是 未 知 的 。 

。 这 些 例 通常 被 认为 是 统计 独立 的 ， 这 意味 着 任何 两 个 例 (比如 说 x, 和 x) 的 联合 概率 

密度 函数 等 于 它们 各 自 概率 密度 函数 的 积 。 
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网 络 的 期 望 响应 。 

从 环境 多 中 导出 的 概念 的 集合 称 作 概 念 空间 。 例 如 ， 概 念 空间 可 能 会 包含 “字母 A”， 
“PRE B” 等 等 。 这 些 概 念 中 的 每 一 个 可 能 以 不 同 的 编码 生成 一 个 正 例 集 合 和 一 个 反例 集合 。 
然而 在 监督 学 习 的 框架 中 ， 我 们 有 另 一 组 概念 。 一 个 学 习 机 器 典型 地 代表 一 个 函数 集 ， 其 中 
的 每 个 函数 对 应 一 个 特定 的 状态 。 例 如 ， 机 器 可 能 被 设计 成 识别 “字母 A”,“ 字 和 母 B" 等 。 由 
学 习 机 器 决定 的 所 有 函数 ( 即 概念 ) 的 集合 称 为 假设 空间 @。 假 设 空间 可 能 等 于 或 不 等 于 概念 
空间 。 在 某 种 意义 上 ， 概 念 空间 和 假设 空间 的 含义 可 以 分 别 与 在 前 一 节 所 讨论 的 函数 f(x) 和 
逼近 限 数 F(x,w) 相 类 比 。 

那么 ， 假 定 我 们 有 一 个 目标 概念 ce(x)€E&， 它 只 取 值 0 或 1。 我 们 希望 由 一 个 神经 网 络 
来 学 会 这 一 概念 ， 这 个 神经 网 络 由 式 (2.105) 定 义 的 数据 集 9 训练 。 令 g(x)€E 旬 表示 与 这 个 
训练 得 到 的 输入 - 输出 映射 相对 应 的 假设 。 评 价 学 习 过 程 是 否 成 功 的 方法 之 一 是 度量 假设 
g(xX) 离 目标 概念 c(x) 有 多 接近 。 如 果 g(x) 关 cl(x)， 自 然 有 误差 发 生 。 产 生 误 差 的 原因 是 我 
们 试图 以 一 个 函数 有 限 的 可 用 信息 为 基础 来 学 习 这 个 函数 。 训 练 误差 的 概念 定义 为 

yin = P(x E B:¢(x) £ c(x)) (2.106) 

这 个 式 中 的 概率 分 布 必需 与 用 于 生成 样本 的 分 布 一 样 。PAC 学 习 的 目标 就 是 确保 va BE 

小 的 。 可 以 用 于 学 习 算 法 的 域 由 训练 样本 了 的 大 小 N 控制 。 另 外 ， 为 学 习 算 法 提供 了 两 个 控 
HSR: 

。 误差 参数 eE (0,1]。 这 个 参数 指定 在 假设 g(x) 对 目标 概念 c(x) 的 一 个 良好 近似 中 


所 允许 的 误差 。 
。 置信 参数 SE (0,1]。 这 第 二 个 参数 控制 构建 一 个 良好 逼近 的 可 能 性 。 
我 们 从 而 可 以 将 PAC 学 习 模 型 看 作 如 图 2-26 中 描 控制 参数 
绘 的 那样 。 °° 







在 此 背景 下 我 们 现在 可 以 将 PAC 学 习 模 型 正式 地 。 ”训练 样本 
陈述 如 下 (Valiant, 1984; Kearns and Vazirani, 1994; {Ge cx) N 
Vidyasagar , 1997) : 

令 包 为 环境 多 上 的 一 个 概念 类 。 我 们 称 概念 类 钳 是 
PAC 可 学 习 的 ， 如 果 存 在 一 个 算法 人 f 具 有 如 下 性 质 ， 对 图 2-26 PAC 学 习 模型 的 框图 
于 每 一 个 目标 概念 cE 芯 ， 对 多 上 的 每 个 概率 分 布 ， 以 及 对 所 有 的 0<s< 1/2 和 0<8< 1/2， 如 
果 对 学 习 算 法 由 提供 训练 例 集 g = | (x, ex) i WRB e AS, BAR ARS Bb DE 
率 1-8 输 出 一 个 误差 vs <e 的 假设 g。 这 个 概率 是 针对 从 集合 了 中 在 抽取 的 随机 样本 以 及 可 
能 存在 于 学 习 算 法 中 的 任何 内 部 随机 性 而 取得 。 样 本 大 小 N 必须 大 于 s 和 8 的 一 个 函数 。 

换言之 ， 只 要 训练 样本 了 的 大 小 N 足够 大 ， 在 神经 网 络 已 在 那个 数据 集 上 训练 过 之 后 ， 
很 可 能 的 情况 是 ， 由 网 络 计算 的 输入 -输出 映射 是 “近似 正确 的 "。 注 意 ， 虽 然 存 在 对 e 和 6 
的 依赖 ， 例 的 数目 N 并 不 一 定 依赖 于 目标 概念 e 或 者 % 的 基本 概率 分 布 。 


样本 复杂 性 
在 PAC 学 习 理 论 中 ， 对 实际 意义 有 特别 影响 的 问题 是 样本 复杂 性 问题 。 这 一 问题 的 焦 
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选择 的 未 知 目标 概念 “， 或 者 训练 集 的 大 小 应 该 多 大 ? 

样本 复杂 性 问题 与 VC 维 密切 相关 。 然 而 ， 在 继续 讨论 这 一 问题 之 前 ， 我 们 需要 定义 一 
个 相 容 概念 的 含义 。 令 9 = | (x; ,qdi) | 六 | 为 任意 标签 例 集 ， 其 中 每 个 x, E 多 ， 每 个 d; (0,1)。 
S “为 在 环境 % 之 上 的 目标 概念 。 那 么 ， 说 概念 “ 是 与 训练 集 了 相 容 的 (或 者 等 价 地 ， 说 是 
5 o 相 容 的 )， 如 果 对 所 有 1 < i< N 我 们 有 ec(x ) = d; (Keams and Vazarini, 1994 )。 现 在 就 
PAC 学 习 而 言 ， 关 键 不 是 一 个 神经 网 络 能 计算 的 输入 - 输出 函数 集 的 数量 ， 而 是 网 络 的 VC 
维 。 更 精确 地 说 ， 我 们 有 分 成 两 部 分 给 出 的 一 个 重要 结论 (Blumer et al. , 1989; Anthony and 
Biggs ,1992; Vidyasagar, 1997) : 


考虑 具有 有 限 VC #hsl 的 神经 网 络 。 
。 任何 用 于 这 个 神经 网 络 的 相 容 学 习 算 法 是 PAC 学 习 算 法 。 
。 存在 常数 KK， 使 得 对 于 任何 这 样 的 算法 ， 大 小 为 


= K (moe +) + ul 3) auto 
的 训练 集 是 足够 的 ， 其 中 6 为 误差 参数 和 6 为 置信 参数 。 


这 个 结果 的 普遍 性 是 可 喜 的 ; 它 可 应 用 于 监督 学 习 过 程 而 不 管 使 用 什么 类 型 的 学 习 算 法 
和 用 于 生成 标签 例 的 基本 概率 分 布 。 正 是 这 一 结论 的 高 度 一 般 性 使 其 成 为 神经 网 络 研究 文献 
中 受到 广泛 研究 的 主题 。 将 基于 VC 维 测量 的 界限 预测 的 结果 与 试验 结果 比较 ， 揭 示 了 很 大 
的 差异 “ 。 在 一 定 意义 上 这 并 不 奇怪 ， 因 为 这 种 差异 仅仅 是 理论 测量 的 自由 与 分 布 无关 的 、 
最 坏 情况 的 本 质 反映 ， 并 且 在 普通 情况 下 我 们 总 可 以 做 得 更 好 。 


计算 复杂 性 


在 PAC 学 习 中 ， 需 要 着 重 关注 的 另 一 个 问题 是 计算 复杂 性 问题 。 这 一 问题 涉及 学 习 算 
法 的 计算 有 效 性 。 更 确切 地 说 ， 计 算 复杂 性 是 在 给 定 具 有 有 限 大 小 N 的 分 类 标签 样 例 时 ， 
涉及 训练 神经 网 络 (学 习 机 器 ) 所 需 的 最 坏 情况 下 的 “运行 时 间 ”。 

在 实际 情形 中 ， 算 法 的 运行 时 间 自 然 依 赖 于 基本 运算 执行 的 速度 。 但 是 ， 从 理论 的 角度 
看 ， 目 的 是 找到 不 依赖 于 计算 所 用 设备 的 运行 时 间 的 定义 。 基 于 这 个 目的 ， 运 行 时 间 以 至 计 
算 复杂 性 通常 从 执行 计算 所 需 的 操作 (加 法 、 乘 法 和 存储 ) 次 数 进行 测量 。 

在 估算 学 习 算法 的 计算 复杂 性 时 ， 我 们 想 知 道 它 随 样 例 大 小 m( 即 被 训练 的 神经 网 络 的 
输入 层 的 大 小 ) 是 如 何 变化 的 。 为 了 使 算法 在 这 种 环境 下 在 计算 上 是 高 效 的 ， 运 行 时 间 应 该 
对 于 某 一 固定 整数 r=1 为 0(m)。 在 这 种 情况 下 ， 说 运行 时 间 是 随 m 多 项 式 增长 的 ， 算 法 
本 身 被 称 为 一 个 多 项 式 时 间 算 法 。 由 一 个 多 项 式 时 间 算 法 执行 的 学 习 任 务 通常 被 认为 是 “ 容 
易 的 ”(Anthony and Biggs, 1992)。 

需要 注意 的 另 一 参数 是 误差 参数 se。 虽然 在 样本 复杂 性 的 情形 中 参数 。 是 固定 而 随意 的 ， 
在 估算 学 习 算法 的 计算 复杂 性 时 我 们 想 知道 它 随 8 如 何 变化 。 直 观 上 ， 我 们 预料 当 s 减 小 时 
研究 中 的 学 习 任 务 会 变 得 更 困难 。 于 是 得 出 必须 对 算法 要 产生 一 个 可 能 近似 正确 输出 所 花 的 
时 间 施 加 一 个 条 件 。 为 了 使 计算 是 高 效 的 ， 适 当 的 条 件 是 运行 时 间 为 1/e 多 项 式 的 。 

将 这 些 考虑 综合 在 一 起 ， 我 们 可 以 对 计算 复杂 性 作出 如 下 形式 化 的 陈述 (Anthony and 
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Biggs, 1992) : 

一 个 学 习 算 法 关于 误差 参数 e、 样 例 大 小 m 和 训练 集 的 大 小 NN 是 计算 有 效 的 ， 如 果 它 的 
运行 时 间 是 关于 NN 多 项 式 的 ， 并 且 对 于 PAC 学 习 如 果 存 在 足够 大 的 No(5,e) 是 关于 m fre"! 
多 项 式 的 。 


2.16 小 结 和 讨论 


在 本 章 中 ,我们 从 神经 网 络 的 角度 讨论 了 与 学 习 过 程 的 许多 方面 相关 的 一 些 重要 问题 。 
这 样 一 来 ， 就 为 本 书 余下 部 分 中 很 多 内 容 打 下 了 基础 。 五 个 学 习 规 则 ， 即 误差 - 修正 学 习 、 
基于 记忆 的 学 习 、Hebb 学 习 、 竞 争 学 习 和 Boltzmann 学 习 ， 是 神经 网 络 设计 的 基础 。 这 些 算 
法 中 一 些 需要 使 用 一 个 教师 ， 另 一 些 则 不 需要 。 重 要 一 点 是 这 些 规则 使 我 们 在 能 力 和 普遍 性 
上 都 能 超出 线性 自 适应 过 滤器 的 范围 。 

在 研究 监督 学 习 时 ， 一 个 重要 的 条 件 是 “教师 ”， 它 能 够 在 误差 - 修正 学 习 中 发 生 错误 时 
为 网 络 输出 提供 精确 的 修正 ; BR APR Boltzmann 学 习 那 样 将 网 络 自由 运行 的 输入 和 输出 单元 
“钳制 "到 环境 。 这 两 种 模型 在 生物 组 织 中 都 是 不 可 能 的 。 生 物 组 织 既 没有 用 于 反 向 传播 误差 
修正 (在 多 层 前 馈 网 络 中 ) 的 精确 的 双向 的 神经 连接 ， 也 不 会 有 强制 接受 外 部 行为 的 神经 方 
式 。 然 而 ， 正 如 第 3 章 和 第 7 章 所 展示 的 那样 ， 监 督学 习 已 经 确立 了 它 在 人 工 神经 网 络 设计 
中 作为 一 种 有 力 范例 的 地 位 。 

相反 ， 自 组 织 ( 无 监督 ) 学 习 规 则 (比如 Hebb 学 习 和 竞争 学 习 ) 是 受 神经 生物 学 的 思想 启 
发 的 。 但 是 ， 为 了 提高 我 们 对 自 组 织 学 习 的 理解 ， 也 需要 参看 Shanon 的 信息 论 以 获得 相关 
思想 。 这 里 我 们 应 提 到 Linsker(1988a,b) 的 最 大 互信 息 (maximum mutual information, Infomax) 原 
则 ， 如 同 在 通信 信道 中 的 信息 传输 那样 ， 它 为 自 组 织 神经 网 络 中 的 信息 处 理 提 供 了 数学 的 形 
式 化 手段 。Infomax 原则 及 其 变形 在 第 10 章 讨论 。 

如 果 不 提 到 达尔 文选 择 学 习 模 型 (Edelman, 1987; Reeke et al. ,1990) ， 对 学 习 方 法 的 讨论 
将 是 不 完全 的 。 选 择 在 进化 和 发 展 的 应 用 中 都 是 一 个 强 有 力 的 生物 学 原则 。 它 居于 已 经 透彻 
了 解 的 生物 认 知 系统 即 免疫 系统 的 核心 (Edelman,1973)。 达 尔 文选 择 学 习 模 型 基于 神经 团 选 
择 理论 。 它 预先 假定 ， 在 每 个 动物 生命 期 中 脑 神经 系统 以 一 种 与 进化 中 的 自然 选择 性 质 类 似 
的 选择 方式 运作 。 根 据 这 一 理论 ， 神 经 系统 的 基本 操作 单元 不 是 单独 的 神经 元 ， 而 是 强 连接 
的 神经 元 的 局 部 团 。 神 经 网 络 在 一 个 团 中 的 成 员 资格 通过 神经 元 的 突 触 权 值 的 改变 而 变化 。 
神经 元 间 的 局 部 竞争 和 合作 对 形成 网 络 中 的 局 部 顺序 显然 是 必需 的 。 一 组 神经 团 称 为 指令 系 
统 (repertoire) 。 一 个 指令 系统 的 组 由 于 神经 生长 的 随机 性 质 而 对 重要 但 相似 的 模式 有 最 好 的 
响应 。 一 个 或 更 多 的 神经 团 响 应 每 个 输入 模式 ， 从 而 保证 了 对 可 能 很 重要 但 又 出 乎 意料 的 输 
人 模式 有 某 种 响应 。 达 尔 文选 择 学 习 与 在 神经 网 络 设 计 中 通常 使 用 的 学 习 算 法 的 不 同 之 处 在 
于 它 假设 设计 了 很 多 子 网 络 ， 并 且 只 有 那些 有 期 望 响 应 的 子 网 络 才 在 训练 过 程 中 被 选择 。 

我 们 以 对 学 习 的 统计 和 概率 方面 的 某 些 评述 来 结束 这 里 的 讨论 。VC 维 已 经 成 为 统计 学 
习 理 论 中 的 核心 参数 。 它 对 结构 风险 最 小 化 和 学 习 的 可 能 近似 正确 (PAC) 模 型 都 是 基本 的 。 
VC 维 是 将 在 第 6 章 讨论 的 所 谓 支持 向 量 机 基本 理论 的 组 成 部 分 。 在 第 7 章 ， 我们 讨论 一 类 
基于 推举 (boosting) 的 委员 会 (committee) 机 ， 其 理论 植 根 于 PAC 学 习 。 

当 我 们 继续 本 书 余下 的 部 分 时 ， 会 有 很 多 情况 和 充分 的 理由 来 回顾 本 章 中 所 提供 的 关于 
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学 习 过 程 的 基础 的 内 容 。 
注释 和 参考 文献 


[1] 


“算法 "(algorithm) 一 词 是 从 波斯 数学 家 Mohammed al-Kowarisimi 的 名 字 而 来 ， 他 生活 在 9 
世纪 并 且 被 认为 发 展 了 用 于 普通 十 进 数 的 加 、 减 、 乘 、 除 的 分 步 规则 。 当 他 的 名 字 用 
拉丁 文书 写 时 就 变 成 了 Algorismus, Algorithm 就 是 这 样 衍 生出 来 的 (Harel,1987)。 

大 量 文献 包含 了 最 近邻 规则 ， 参 看 Dasarathy(1991) 编 辑 的 论文 集 ， 这 本 书包 含 了 Fix and 
Hodges(1951) 的 开创 性 工作 以 及 许多 其 他 关于 最 近邻 模式 分 类 技术 的 许多 重要 文章 。 
关于 Hebb 突 触 的 详 述 ， 包 括 历 史 评 述 ， 参 考 Brown et al. (1990) 及 Frégnac 和 Schulz 
(1994)。 另 外 的 综述 材料 可 参考 Constantine-Paton et al. (1990)。 

长 期 电位 一 Hebb 突 触 的 生理 学 证 据 

Hebb(1949) 为 我 们 提供 了 考虑 突 触 记 忆 机 制 的 方法 ， 但 是 近 四 分 之 一 世纪 过 去 后 他 的 
建议 才 获 得 实验 证 据 的 支持 。1973 年 ，Bliss 和 Lomo 发 表 文 章 描述 了 在 脑 中 称 之 为 海 
马 区 中 的 激活 导致 突 触 改变 的 一 种 方式 。 他 们 对 进入 这 个 结构 的 主 通道 应 用 电 刺 激 的 
冲击 ， 同 时 记录 引起 突 触 的 反应 。 当 他 们 确信 获得 反应 生物 形态 学 的 稳定 基线 特征 时 ， 
他 们 应 用 简短 的 高 频 冲 击 训 练 。 而 当 他 们 总 结 测试 冲击 的 应 用 时 ， 他 们 发 现 响应 的 振 
幅 要 大 得 多 。 记 忆 研 究 人 员 最 感 兴趣 的 是 发 现 这 种 效果 可 以 持续 很 长 时 间 ， 他 们 称 这 
种 现象 为 长 期 电位 (long-term potentiation, LTP) 。 

现在 每 年 有 几 百 篇 关于 LIP 现象 的 论文 发 表 ， 我 们 知道 许多 它 的 固有 机 制 。 例 如 ， 
我 们 知道 电位 作用 被 限定 在 激活 通路 上 。 我 们 也 知道 LIP 表现 出 许多 联想 性 质 。 所 谓 
联想 性 质 我 们 是 指 同时 活路 通路 间 的 相互 作用 。 在 特别 情况 下 ， 若 一 个 正常 情况 下 不 
会 导致 LIP 效果 的 弱 输 入 与 一 个 强 输入 配对 时 ， 则 弱 输 入 被 充电 。 这 之 所 以 被 称 为 联 
想 性 质 是 因为 它 和 学 习 系 统 的 联想 性 质 相 类 似 。 例 如 ， 在 Palo 条 件 反射 试验 中 ， 一 
个 神经 ( 弱 ) 听 觉 刺 激 和 一 个 强 (食物 ) 刺 激 配对 ; 这 种 配对 产生 条 件 反射 的 一 种 形式 ， 
对 听觉 刺 激 分 小睡 液 。 

在 这 个 领域 的 许多 试验 工作 集中 在 LTP 的 联想 性 质 。 支 持 LTP 的 许多 突 触 利 用 谷 
氨 酸 作为 神经 传导 器 。 但 是 ， 实 际 上 在 后 突 触 神经 元 中 有 许多 不 同 的 受 纳 器 响应 谷 氨 
酸 。 所 有 这 些 受 纳 器 有 不 同 的 性 质 ， 但 我 们 仅 考 虑 其 中 的 两 种 性 质 。 主 要 的 突 触 响应 
是 由 AMPA 受 纳 器 的 激活 导致 的 (这 些 受 纳 器 的 名 称 是 根据 它们 响应 最 强烈 的 药物 的 名 
称 而 来 的 ， 但 它们 都 是 谷 氨 酸 受 纳 器 ) 。 当 在 一 个 LIP 实验 中 记录 一 个 响应 时 ， 它 基本 
上 是 由 于 AMPA 受 纳 器 的 激活 的 性 质 。 在 突 触 激活 后 ， 释 放 谷 氨 酸 且 和 后 突 触 膜 的 受 
纳 器 绑 定 。AMPA 受 纳 器 的 离子 通道 部 分 张 开 ， 导致 作为 突 触 基本 响应 的 电流 。 

第 二 种 类 型 的 谷 氨 酸 受 纳 器 ， 即 NMDA 受 纳 器 ， 有 一 些 有 趣 的 性 质 。 和 NMDA 受 
纳 器 绑 定 的 谷 氮 酸 不 足以 开启 相关 的 离子 通道 ， 通 道 保 持 关 闭 直 到 罕 触 活跃 (包括 
AMPA 受 纳 器 ) 产 生 足 够 大 的 电压 差 。 因 此 ，AMPA 受 纳 器 为 化 学 依赖 的 ， 而 NMDA 受 
纳 器 同时 是 化 学 依赖 和 电压 依赖 的 。 我 们 需 男 外 的 信息 看 清 这 个 差异 的 重要 性 。 和 
AMPA 受 纳 器 相关 联 的 离子 通道 和 纳 离 子 的 运动 ( 它 产 生 突 触电 流 ) 联 系 。 和 NMDA 受 
纳 器 相关 联 的 离子 通道 允许 钙 进 和 细胞。 虽然 钙 的 运动 也 会 影响 膜 电 流 ， 但 其 主要 作 
用 是 作为 触发 信号 ， 触 发 一 连 串 的 事件 ， 导 致 和 AMPA 受 纳 器 相关 联 的 响应 强度 的 持 
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[5] 


[6] 


[8] 


续 增 加 。 

现在 我 们 有 关于 Hebb 突 触 的 机 制 。NMDA 受 纳 器 要 求 前 突 触 活 跃 (释放 谷 氨 酸 ) 和 
后 突 触 活跃 。 这 种 情况 怎样 才能 正常 发 生 ? 保持 足够 强 的 输入 就 可 以 了 。 因 而 当 我 们 
将 一 个 弱 输 入 和 一 个 强 输 入 配对 ， 弱 输入 释放 它 的 谷 氨 酸 ， 而 强 输入 保证 有 足够 强 的 
电压 差 激活 和 弱 突 触 相连 接 的 NMPA 受 纳 器 。 

虽然 Hebb 最 初 的 建议 仅 限于 单 向 学 习 规 则 ， 但 如 果 利 用 双向 学 习 规则 ， 则 可 以 认 
为 神经 网 络 更 具有 灵活 性 ， 突 触 权 值 既 可 以 增加 又 可 以 减少 是 其 优势 。 令 人 放心 的 是 
知道 也 有 实验 证 据 支 持 突 触 衰减 机 制 。 如 果 弱 输入 的 激活 不 伴随 强 输入 的 激活 ， 突 触 
权 值 常常 被 减弱 。 这 在 突 触 系统 的 低频 激活 的 响应 中 最 为 常见 ， 这 种 现象 称 之 为 长 其 
衰减 (long-term depression,LID)。 也 有 一 些 证 据 表 明 称 之 为 奇异 突 触 衰减 的 作用 。LTP 
限制 为 激活 输入 的 衰减 ， 而 奇异 突 触 衰减 则 为 非 激活 输入 。 
竞争 学 习 的 思想 可 追溯 到 von der Malsburg(1973) 的 关于 条 纹 皮质 的 方向 敏感 神经 细胞 的 
自 组 织 ，Fukushima(1975) 的 以 神经 认 知 机 著名 的 自 组 织 多 层 神 经 网 络 ，Willshaw and von 
der Malsburg(1976) 的 自 组织 模 型 神经 连接 结构 ， 以 及 Grossberg(1972,1976a,b) 的 自 适 应 
模式 分 类 等 的 早期 工作 。 并 有 旦 有 重要 的 证 据 表 明 竞 争 学 习 在 脑 组 织 映 射 结 构 中 起 着 关 
键 作用 (Durbin et al. ,1989) ， 最 近 Ambros-Ingerson et al. (1990) 的 实验 工作 提供 竞争 学 习 
的 进一步 生理 学 上 的 证 据 。 
如 图 2-4 所 示 ， 利 用 侧 抑制 在 神经 生物 系统 很 流行 。 大 多 数 感觉 组 织 ， 即 眼球 的 视 网 
膜 ， 耳蜗 及 皮肤 的 触觉 神经 ， 都 以 这 样 一 种 方式 组 织 ， 对 任何 给 定位 置 的 刺激 都 在 周 
围 神经 元 中 产生 抑制 (Arbib, 1989; Fischler and Firschein, 1987)。 在 人 类 感知 中 ， 侧 抑制 
表现 在 一 种 称 之 为 马赫 带 (Mach band) 的 现象 中 ,马赫 带 是 根据 物理 学 家 Emest Mach 
(1865) 的 名 字 来 命名 的 。 例 如 ， 如 果 我 们 看 一 张 一 半 黑 一 半 白 的 纸 ， 即 使 它们 有 同样 
的 密度 ， 我 们 将 会 在 白 的 部 分 看 到 比 白 更 白 的 平行 于 边界 的 一 个 带 ， 在 黑 的 部 分 看 见 
比 黑 更 黑 的 平行 于 边界 的 一 个 带 。 马 赫 带 不 是 物理 上 出 现 的 ， 而 是 视觉 上 的 幻觉 ， 代 
表 由 侧 抑制 的 差异 动作 引起 的 过 投射 或 从 投射 。 
John von Neumann 深刻 认识 到 统计 热力 学 在 研究 计算 机 中 的 重要 性 。1949 年 他 在 Ilinois 
大 学 所 作 的 关于 《复杂 自动 机 的 理论 和 组 织 》 的 五 个 报告 的 第 三 个 中 很 好 地 说 明了 这 一 
点 。 在 他 关于 《信息 的 统计 理论 的 第 三 次 讲演 中 ，von Neumann 指出 : 热力 学 概念 也 许 
将 进入 新 的 信息 理论 。 有 一 些 强 烈 的 迹象 显示 信息 类 似 于 粹 ， 并 且 炉 的 退化 过 程 和 信 
息 处 理 中 的 退化 过 程 是 平行 的 。 假 如 没有 它 运行 的 环境 的 统计 特征 ， 你 是 不 能 定义 一 
个 自动 机 的 功能 或 效率 的 ， 正 如 在 利用 表征 热力 学 环境 的 统计 特征 时 一 样 。 自 动机 环 
境 的 统计 变量 当然 比 标准 热力 学 的 温度 变量 复杂 ， 但 它们 在 特征 上 相似 。 
看 来 术语 “增强 式 学 习 " 是 由 Minsky(1961) 在 他 的 早期 人 工 智 能 研究 中 创造 的 ， 然 后 由 
Waltz and Fu(1965) 在 控制 论 中 独立 提出 。 但 是 “增强 式 ” 的 基本 思想 在 心理 学 的 动物 学 
习 实 验 研 究 中 已 出 现 (Hampson,1990)。 在 这 个 背景 下 ， 由 Thorndike 的 下 述 经 典 效 果 律 
可 以 表明 这 一 点 (Thomdike,1911, p244): 

对 于 同一 情况 作出 的 几 种 不 同 响应 ， 只 有 那些 伴随 或 接近 动物 满足 的 或 其 他 等 同 
的 东西 才 有 可 能 和 该 情况 更 加 紧密 的 联系 ， 这 样 当 它 重新 发 生 时 ， 它 们 将 更 有 可 能 发 
生 ; 其 他 的 那些 伴随 或 接近 使 动物 不 舒服 的 或 其 他 等 同 的 东西 ， 与 那 种 情形 的 联系 会 
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减弱 ， 这 样 当 它 发 生 时 ， 它 们 发 生 的 可 能 减少 。 满 足 或 不 舒服 的 程度 越 大 ， 联 系 带 的 
增强 或 减弱 的 程度 就 越 强 。 

虽然 ， 不 能 说 这 个 原理 提供 了 一 个 生物 行为 的 完整 模型 ， 但 它 的 简单 性 和 普通 意 
义 的 方法 使 之 成 为 增强 式 学 习 的 传统 方法 中 的 一 个 有 影响 的 学 习 规则 。 

[9j 设备 输出 是 典型 物理 变量 。 为 控制 设备 ， 我 们 需要 清楚 知道 这 个 变量 的 值 ， 即 我 们 必 
须 度量 设备 输出 。 用 于 度量 一 个 物理 变量 的 系统 称 为 感知 器 ， 因 而 更 准确 地 说 ， 图 
2-13 的 方 框图 在 它 的 反馈 路 径 中 应 包括 一 个 感知 器 。 我 们 省 略 了 感知 器 ， 暗 示 它 的 转 
移 函 数 假定 为 单位 的 。 

[10] “鸡尾酒 会 现象 指 人 类 在 曲 声 环境 中 挑选 和 跟踪 听觉 输入 源 的 显著 能 力 (Cherry, 1953; 
Cherry and Taylor,1954)。 这 种 能 力 表现 在 听觉 系统 所 完成 三 种 过 程 的 组 合 中 
。 TA ”输入 听觉 信号 被 分 割 到 单个 频道 ， 每 个 频道 提供 关于 听 者 环境 的 有 意义 的 信 

息 。 在 分 割 时 听 者 利用 的 所 有 启示 中 ， 空 间 位 置 也 许 是 最 重要 的 (Moray,1959) 。 
。 注意 ”这 包括 听 者 集中 注意 在 一 个 频道 而 忽略 其 他 不 相关 频道 的 能 力 (Cherry,1953)。 
。 转换 ”第 三 个 过 程 涉及 从 一 个 频道 转换 到 另 一 个 频道 的 能 力 ， 它 也 许 通过 “开启 ” 输 
人 听觉 信号 以 由 项 向 下 的 方式 调节 (Wood and Cowan, 1995), 
由 这 些 观点 可 导出 的 结论 是 输入 听觉 信号 所 完成 的 处 理 确实 是 时 空 类 型 的 。 

[1] 设计 最 优 线性 滤波 器 问题 提供 了 线性 自 适应 滤波 器 的 理论 框架 ， 这 个 问题 首先 由 
Kolmogorov(1942) 提 出 并 且 不 入 后 由 Wiener(1949) 独 立 解决 。 

男 一 方面 ， 最 优 非 线 滤波 问题 的 形式 解 在 数学 上 是 不 能 解 的 。 但 是 在 50 年 代 ， 
Zadeh( 1953), Wiener 及 其 合作 者 (Wiener,195$8) 作 了 大 量 出 色 的 工作 ， 而 其 他 人 对 澄清 
问题 的 性 质 作 了 许多 工作 。 

1954 年 Gabor 是 第 一 个 认识 到 非 线性 自 适 应 滤波 器 思想 的 人 ， 并 且 随 后 在 他 的 合 
作者 帮助 下 建立 了 这 种 滤波 器 (Gabor et al. ,1960)。 基 本 上 Gabor 提出 了 绕 过 非 线性 自 
适应 滤波 数学 困难 的 捷径 ， 通 过 学 习 优化 它 的 响应 构造 滤波 器 。 滤 波 器 输出 形式 上 可 
表示 为 


y(n) = Dwrln) + > DD me(n)x(m) +: 
其 中 x(0), x (1)，,- .,x(N) 是 滤波 器 输入 的 采样 。 (这 个 多 项 式 现在 称 之 为 Gabor- 
Kolmogorov Z A BR Voltera AR.) EIERS -项 表示 线性 滤波 器 ， 由 一 组 系数 | w, 1 
表征 。 第 二 项 由 一 组 二 元 系数 | w,,， | 表征 ， 是 非 线 性 的 ; 这 项 包含 滤波 器 输入 的 两 个 
样本 的 乘积 ， 依 次 类 推 可 得 高 阶 项 。 滤 波 器 的 系数 由 梯度 下 降 调 整 使 得 极 小 化 目标 
(期 望 ) 响 应 d(N) 和 实 滤波 器 输出 y(N) 之 差 的 均 方 值 。 
[12] 式 (2.71) 中 的 代价 函数 Ld, F(x,w)) 应 用 于 标量 d。 当 期 望 响应 为 向 量 ait, GUE 
卫 数 采用 向 量 值 形 式 F(x,w)。 这 时 我 们 用 平方 欧 几 里 德 距离 
L(d,F(x,w)) = || d- F(x,w) |i’ 
作为 损失 函数 。 函 数 (+, ) 为 它 的 变 元 的 向 量 值 函数 。 
[13] 根据 Burges(1998)， 首 先 出 现在 Vapnik (1995) 中 的 例 2.3 归功 于 了 .Levin Al J. S. 


Denker。 


[14] 线性 阅 值 单元 (感知 器 ) 构 成 的 前 馈 网络 VC 维 数 的 上 界 由 Baum and Haussler( 1989) 获 
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[15] 


[16] 


得 。 随 后 ，Maass(1993) 证 明 ， 对 于 这 类 网 络 ， 一 个 更 小 的 下 界 也 成 立 ， 其 数量 级 为 
WlogW. 

sigmoidal 神经 网 络 的 VC 维 数 的 第 一 个 上 界 是 Macintyre and Sontag(1993) 推 出 的 。 
随后 Koiran and Sontag(1996) 回 答 了 Maass(1993) 提 出 的 公开 问题 : 

“具有 sigmoid 激活 函数 oly) = (1+e 7) 的 模拟 神经 网 络 的 VC 维 数 是 否 以 可 变 
参数 个 数 的 多 项 式 为 界 ?” 

Koiran 和 Sontag 在 他 们 1996 年 文章 中 明确 回答 了 这 个 问题 ， 正 如 前 面 所 述 。 

Karpinski and Macintyre(1997) 也 明确 回答 了 这 个 问题 。 在 这 后 一 篇 文章 中 利用 基于 
微分 拓扑 的 复杂 方法 证 明了 模式 分 类 器 的 sigmoid 神经 网 络 的 VC 维 数 的 一 个 上 界 为 0 
( 开 )。 这 个 上 界 和 Koiran 和 Sontag(1996) 导 出 的 下 界 之 间 有 较 大 的 差距 。Karpinski and 
Macintyre(1997) 猜 想 他 们 的 上 界 可 以 降低 。 

Sauer 定理 可 陈述 为 (Sauer,1972; Anthony and Biggs, 1992; Vidyasagar, 1997) : 

令 多 表示 学 习 机 器 实现 的 二 分 总 体 ， 若 VCdim(F) =h, h APRA Shs, ABA 
增长 函数 Ag (7) 的 界 为 (el/h)"， 其 中 。 为 自然 对 数 的 底 。 

在 这 个 注释 中 我 们 给 出 文献 中 报导 的 样本 复杂 性 和 相关 的 泛 化 问题 的 四 个 重要 研究 的 
总 结 。 

首先 ，Cohn and Tesauro(1992) 对 基于 VC 维 数 的 样本 复杂 性 界 作为 模式 分 类 器 设 
计 工 具 的 实际 价值 给 出 详细 的 实验 研究 。 特 别 是， 设计 了 检验 神经 网 络 泛 化 能 力 和 
Vapnik 统计 学 习 理 论 导 出 的 与 分 布 无 关 的 最 坏 情 况 界 之 间 的 关系 的 试验 。 这 里 考虑 的 
界 是 Vapnik(1982) 定 义 的 

= 
其 中 vee 是 泛 化 误差 ， h & VC 维 数 ，N 是 训练 集 的 大 小 。Cohn 和 Tesauro 给 出 的 结果 
表明 平均 泛 化 能 力 比 式 (1) 预 测 的 好 得 多 。 

其 次 ，Holden and Niranjan(1995) 扩 展 了 Cohn 和 Tesauro 早期 的 研究 ， 解 决 了 一 个 
相似 的 问题 。 但 有 三 个 重要 差别 需要 指出 : 

。 神经 网 络 所 做 的 所 有 实验 都 知道 VC 维 数 的 精确 结果 或 非常 好 的 界 ; 

。 特别 考虑 了 所 用 的 学 习 算 法 ; 

。 实验 采用 现实 生活 中 的 数据 。 | 

虽然 报告 的 结果 发 现 提供 样本 复杂 性 预测 比 早期 理论 提供 的 值 有 意义 得 多 ,但 是 
仍 由 许多 理论 缺陷 有 待 克 服 。 

第 三 ，Baum and Haussler(1989) 报 告 了 训练 线性 益 值 神经 元 的 单 层 前 馈 网 络 具有 
良好 泛 化 能 力 所 需 的 训练 样本 大 小 N。 假 设 训练 集 从 任意 概率 分 布 函数 选择 ， 并 且 评 
价 泛 化 性 能 的 测试 样本 服从 相同 的 分 布 ， 那么 ， 根 据 Baum 和 Haussler， 如 果 满 足以 下 
两 个 条 件 ， 网 络 几 乎 肯定 提供 泛 化: 

(1) 对 训练 集 产生 错误 的 次 数 小 于 s/2 

(2) 训 练 中 所 用 的 样本 数 N 为 


N> ol ere e)) @) 
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其 中 下 为 网 络 突 触 权 值 数 目 。 式 (2) 提 供 了 与 分 布 无 关 的 最 坏 情况 下 N 的 界 。 这 里 ， 
所 需 训 练 样本 的 实际 数目 和 式 (2) 计 算 的 界 之 间 又 有 一 个 巨大 的 差 蜡 。 

最 后 ， 在 模式 分 类 任务 中 用 大 的 神经 网 络 时 ， 我 们 经 常 发 现 利 用 比 Cohn and 
Tesauro(1992) 报 告 的 网 络 权 值 数目 小 得 多 的 训练 样本 数目 表现 良好 ，Bartlett(1997) 讨 
论 这 个 问题 。 在 Bartlett 的 文章 中 证 明 ， 对 于 那 种 神经 网 络 具有 良好 泛 化 而 突 触 权 值 
不 是 特别 大 的 任务 ， 是 由 权 值 的 大 小 而 不 是 权 值 数目 决定 网 络 的 泛 化 性 能 。 


习题 
学 习 规 则 


2.1 式 (2.3) 描 述 的 增 量规 则 和 式 (2.9) 描 述 的 Hebb 规则 代表 两 类 不 同学 习 方 法 。 列 出 


这 两 个 规则 相互 区 别 的 特征 。 


2.2 利用 禁止 从 输出 中 抽取 期 望 响应 (目标 值 ) ,再 用 反 -Hebb 规 则 (Mitehison ,1989) ,可 


以 实现 误差 修正 学 习 规则 。 讨 论 误差 学 
习 的 这 种 解释 。 

2.3 图 2-27 表示 二 维 平面 数据 点 
集 。 一 部 分 数据 点 集 属于 类 4, 而 另 一 部 
分 数据 点 集 属于 类 4, 。 对 该 数据 集 构 造 
应 用 最 近邻 规则 产生 的 判定 边界 。 

2.4 考虑 一 组 人 ， 把 他 们 关于 某 主 
题 的 集体 意见 定义 为 每 个 成 员 各 自 意见 
的 加 权 平 均 。 假 设 在 讨论 过 程 中 ， 成 员 
的 意见 和 集体 意见 趋向 一 致 ， 则 他 的 意 
见 的 权 值 增加 ， 另 一 方面 ， 如 果 成 员 总 
是 不 同意 集体 意见 ， 那 么 他 的 意见 的 权 
值 减 小 。 这 样 加 权 形 式 等 价 于 正 反馈 控 
制 , 它 有 在 组 内 产生 一 致意 见 的 效果 
(Linsker, 1988a) 。 


讨论 所 描述 的 情况 和 学 习 的 Hebb 假说 的 类 似 之 处 。 
2.5 一 个 Hebb 规则 的 广义 形式 可 描述 为 : 


22 x: 类 €, 
@: 类 €, 





0 e e xy 


图 2-27 


Aw,(n) = aF(y,(n)) G(x (n)) - Bws(n) Fy, Cn)) 
其 中 x(n) 和 y(n) 为 前 突 触 和 后 突 触 信和 号; FCA Gl: ) 为 它们 各 自 变 量 的 函数 ; Aw, (n) 
为 在 时 刻 n 时 突 触 权 值 wi 关于 信和 号 x(n) 和 y(n) 的 响应 产生 的 改变 量 。 寻 找 (a) 平 衡 点 和 


(b) 这 个 规则 定义 的 最 大 衰减 。 


2.6 一 个 幅度 为 1 的 输入 信号 重复 应 用 于 初 值 为 1 的 突 触 连 接 。 计 算 利 用 下 面 两 个 规 


则 时 突 触 权 值 的 偏差 : 


(a) 在 式 (2.9) 中 描述 的 Hebb 规则 的 简单 形式 ， 假 设 学 习 率 参数 1= 0.1。 112 
(b) 在 式 (2.,10) 中 描述 的 协 方差 规 则 ， 假 设 前 突 触 活动 x =0 而 后 突 触 活动 7 = 1.0。 
2.7 在 式 (2.9) 中 描述 的 Hebb 突 触 涉 及 使 用 正 反 馈 。 验 证 这 个 陈述 的 正确 性 。 
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2.8 考虑 式 (2.10) 中 描述 的 关于 自 组 织 学 习 的 协 方差 假说 。 假 设 遍 历 ( 即 时 间 平 均 可 蔡 
代 总 体 平均 )， 证 明 在 式 (2.10) 中 的 Aw(n) 的 期 望 值 可 表示 为 
E[Aw,] = nC El yx] - yx) 
你 怎样 解释 这 个 结果 。 
2.9 根据 Linsker(1986) ， 学 习 的 Hebb 假说 可 以 用 公式 
Aw; = 0%, - Ye) (Xi — Xo) + a 
表示 ， 其 中 x, My, HAA ik Aa RAMS, a), 0, x yo 都 是 常数 。 假 设 神经 元 大 
是 线性 的 ,由 
Yk = Daa +a 
表示 ， 其 中 a, 为 另 一 常数 。 假 设 所 有 输入 信和 号 的 概率 分 布 相同 ， 即 E[ x;] = El] u > 
和 矩阵 C 表示 为 输入 信号 的 协 方差 矩阵 ， 它 的 第 六 个 元 素 定义 为 
cy = El (x; - p)(x; - p)] 
试 确定 ElAw ]。 
2.10 给 出 图 2-28 网 络 中 神经 元 j 的 输出 y 的 表达 式 。 你 可 应 用 下 列 量 : 
a, = 第 i 个 输出 信号 
wi = 从 输入 到 神经 元 的 突 触 权 值 
cy = 从 神经 元 到 神经 元 j 的 侧 向 连接 
的 权 值 
v = 神经 元 j 的 诱导 局 部 域 





修改 自由 参数 


y; = 9(v) 语义 水 平 的 误差 信号 
神经 元 j 成 为 获胜 神经 元 应 该 满足 什么 图 2-28 
条 件 ? 


2.11 假设 每 个 输出 神经 元 包括 自 反馈 ， 重 复 问题 2.10。 

2.12 侧 抑制 的 连接 模式 ， 即 “ 近 激 励 而 远 抑 制 "， 可 以 用 两 个 Gauss 曲线 的 差 建 模 。 这 
两 条 曲线 有 相同 的 面积 ， 但 是 ， 用 于 激励 的 正 曲线 比 用 于 抑制 的 负 曲 线 有 和 较 高 和 较 罕 的 峰 。 
也 就 是 可 以 把 连接 模式 表示 为 ， 





1 -ène 1 ~ 2° at 
W(x) = 一 一 一 ee 一 e i 
V 216, V 2x0; 


其 中 x 是 到 侧 抑制 神经 元 的 距离 。 利 用 模式 W(x) 扫 描 一 个 页 面 ， 一 半 是 白 的 一 半 是 黑 的 ， 
两 半 之 间 的 边界 垂直 于 x 轴 。 
画 出 当 c.=5，c; =8 flo, =1, 6 =2 时 这 个 扫描 过 程 的 输出 。 





学 习 范 例 

2.13 图 2-28 给 出 自 适 应 语言 获得 系统 的 方 框图 (Gorin,1992)。 根 据 机 器 对 输入 刺激 响 
应 的 适应 程度 的 反馈 ， 系 统 的 神经 网 络 部 分 的 突 触 连 接 被 增强 或 减弱 。 这 个 系统 可 看 作 增 强 
式 学 习 的 例子 。 说 明 这 个 陈述 合理 性 。 

2.14 下 例 算法 中 ， 哪 两 个 范例 属于 有 教师 学 习 和 无 教师 学 习 ? 

(a) 最 近邻 规则 
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(b) k - 最 近邻 规则 

(c) Hebb 学 习 

(d) Boltzmann 学 习 规 则 

说 明 你 的 答案 的 理由 。 

2.15 无 监督 学 习 可 以 用 在 线 或 离线 方式 实现 。 讨 论 这 两 种 可 能 方式 的 物理 含义 。 

2.16 考虑 学 习 机 器 面 对 象 棋 游 戏 结果 ( 赢 、 输 或 平局 ) 信 任 赋值 的 困难 。 在 这 个 游戏 背 
景 下 讨论 时 间 信 任 赋值 和 结构 信任 赋值 的 概念 :。 

2.17 可 以 把 一 个 监督 学 习 任 务 看 作 增强 式 学 习 任 务 ， 其 中 把 系统 的 实际 响应 和 期 望 响 
应 靠近 的 某 种 度量 作为 增强 信和 号。 讨论 监督 学 习 和 增强 式 学 习 的 这 种 关系 。 

2.18 ”考虑 应 用 于 相关 和 矩阵 记忆 的 关键 模式 的 下 述 正 交 集 : 

x, = [1,0,0,0]7 x, = [0,1,0,0]” x, = [0,0,1,0]” 
相应 的 储存 模式 为 








yı = [5,1,0]" y2 = [- 2,1,6]” y: = [- 2,4,3] 114 








(a) 计 算 记忆 和 矩阵 M。 
(b) 证 明 记 忆 完 全 联想 。 
2.19 再 考虑 问题 2.18 的 相关 和 矩阵 记忆 。 应 用 于 记忆 的 刺激 是 关键 模式 x, 的 带 噪 声 形 
式 ， 表 示 为 
x = [0.8, - 0.15,0.15, ~ 0.20]” 
(a) 计 算 记忆 响应 yo 
(b) 证 明 响 应 y 在 欧 几 里 德 意 义 下 和 存储 模式 y 最 接近 。 
2.20 ”利用 下 例 关键 向 量 训练 自 联想 记忆 : 


x; = H-2, 一 3,73]? X% = (2, 一 了 2， -V8]7 X% = +3, 7 1/6]? 


(a) 计 算 这 些 向 量 之 间 的 夹 角 。 它 们 相互 之 间 离 正 交 性 有 多 近 ? 
(b) 利 用 推广 的 Hebb 规则 ( 即 外 积 规 则 )， 计 算 网 络 的 记忆 矩阵。 考查 自 联想 和 完全 记忆 
联想 有 多 近 。 
(c) 把 关键 向 量 x, 的 伪装 形式 即 输出 信息 
x = [0, -3w3]7 
应 用 于 记忆 。 计 算 记 忆 的 响应 ， 将 结果 和 期 望 
响应 x, 比较 。 
自 适 应 
2.21 图 2-29 表示 一 个 自 适 应 系统 的 方 框图 。 
预测 模型 的 输入 信和 号 定义 为 过 程 的 过 去 值 ， 表 示 为 
x(n -1) = [x(n —1), x(n —2),°°,x(n -~ m)]" 
模型 输出 # (n) 表 示 对 过 程 现在 值 x(n) 的 估 
计 。 上 比较 器 计算 误差 信号 
e(n) = x(n) - £(n) 图 2.29 is 
它 接 着 用 于 修正 模型 的 可 调 参 数 。 它 也 提供 转 
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移 到 神经 处 理 下 一 级 的 输出 信号 用 于 解释 。 在 一 级 接 一 级 的 基础 上 重复 这 个 操作 ， 系 统 处 理 
的 信息 逐步 提高 质量 (Mead ,1990 ) 。 

写 出 图 2-29 中 描述 的 下 一 级 信号 处 理 的 细节 。 
统计 学 习 理 论 

2.22 根据 从 式 (2.61) 导 出 (2.62) 的 相似 过 程 ， 导 出 式 (2.66) 定 义 的 总 体 平均 函数 工 ,, (了 
(x), R(X, 了 )) 的 公式 。 

2.3 ”在 这 个 问题 中 我 们 希望 计算 具有 和 平面 上 的 坐标 轴 重 合 的 矩形 区 域 的 VC 维 数 。 
证 明 这 个 概念 的 VC 维 数 为 4。 你 可 以 通过 下 列 方式 完成 证 明 : 

(a) 平 面 上 的 四 个 点 ， 以 及 有 边 与 一 个 坐标 轴 重 合 的 和 矩形 能 够 实现 的 二 分 ; 

(b) 平 面 上 四 个 点 ， 以 及 有 边 与 一 个 坐标 轴 重 合 的 矩形 不 能 够 实现 的 二 分 ; 

(c) 平 面 上 五 个 点 ， 以 及 有 边 与 一 个 坐标 轴 重 合 的 和 矩形 也 能 够 实现 的 二 分 。 

2.24 考虑 线性 二 值 模式 分 类 器 ， 它 的 输入 向 量 x 有 m 维 ， 向 量 x 的 第 一 个 分 量 为 常 
数 1 从 而 分 类 器 相应 的 权 值 为 偏 置 。 分 类 器 关于 输入 空间 的 VC 维 数 是 多 少 ? 

2.25 不 等 式 (2.97) 定 义 一 致 收敛 速度 的 一 个 界 ， 它 是 经 验 风险 最 小 化 原则 的 基础 。 

(a) 假 设 不 等 式 (2.97) 成 立 ， 验 证 式 (2.98) 的 正确 性 。 

(b) 导 出 定义 置信 区 间 s 的 等 式 (2.99)。 

2.26 继续 例 2.3， 证 明 图 2-30 中 的 四 个 平均 分 布 的 点 不 能 被 单 参数 指示 函数 族 f(x, 
a), a& RAR. 


1 2 3 4 
0——0— 0—o— 
x=0 


图 2-30 


2.27 在 非 线性 回归 环境 下 讨论 偏 置 -方差 困境 和 结构 风险 最 小 化 的 关系 。 

2.28 (a) HRA sigmoid 函数 的 神经 元 组 成 的 多 层 前 馈 网 络 的 训练 算法 是 PAC 可 学 习 
的 。 验 证 这 个 陈述 的 正确 性 。 

《pb) 由 具有 阀 值 激活 函数 的 神经 元 组 成 的 任意 网 络 你 能 作出 类 似 的 陈述 吗 ? 证明 你 的 答 
案 的 正确 性 。 





第 3 章 BRERA 


3.1 简介 


在 神经 网 络 的 形成 阶段 (1943 - 1958) ， 一 些 研究 者 作出 了 开拓 性 的 贡献 : 

。 McCulloch and Pitts(1943) 引 入 神经 网 络 的 概念 作为 计算 的 工具 。 

。 Hebb(1949) 提 出 自 组 织 学 习 的 第 一 个 规则 。 

。 Rosenblatt(1958) 提 出 感知 器 作为 有 教师 学 习 ( 即 监督 学 习 ) 的 第 一 个 模型 。 

McCulloch - Pitts 关于 神经 网 络 的 论文 所 造成 的 重要 影响 在 第 1 BPR ABS SRO 
述 。Hebb 学 习 的 概念 某 种 程度 上 在 第 2 章 中 也 得 到 了 讨论 。 在 本 章 中 我 们 将 讨论 Rosenblatt 
的 感知 器 。 

感知 器 是 用 于 线性 可 分 模式 ( 即 模式 分 别 位 于 超 平 面 所 分 隔 开 的 两 边 ) 分 类 的 最 简单 的 神 
经 网 络 模型 。 基 本 上 它 由 一 个 具有 可 调 突 触 权 值 和 偏 置 的 神经 元 组 成 。 用 来 调整 这 个 神经 网 
络 中 自由 参数 的 算法 最 早出 现在 Rosenblatt(1958,1962) 提 出 的 用 于 其 脑 感知 模型 的 一 个 学 习 
过 程 中 "。 事 实 上 ， 如 果 用 来 训练 感知 器 的 模式 (向 量 ) 取 自 两 个 线性 可 分 的 类 ，Rosenblatt 
证 明了 感知 器 算法 是 收敛 的 ， 而 且 由 超 平面 构成 的 决策 面 位 于 两 类 之 间 。 算 法 收敛 性 的 证 明 
被 称 为 感知 器 收敛 定理 。 建 立 在 一 个 神经 元 上 的 感知 器 的 模式 分 类 被 限制 为 只 能 完成 两 类 
(假设 ) 的 模式 分 类 。 通 过 扩展 感知 器 的 输出 层 可 以 使 感知 器 包括 不 止 一 个 神经 元 ， 相 应 地 我 
们 可 以 进行 多 于 两 类 的 分 类 。 但 是 ， 只 有 这 些 类 是 线性 可 分 时 感知 器 才能 正常 工作 。 重 要 的 
一 点 在 于 仅 关 心 作为 模式 分 类 器 的 感知 器 的 基本 理论 ， 我 们 只 需 考虑 单个 神经 元 的 情况 。 有 
关 多 个 神经 元 的 理论 推广 是 很 平常 的 。 

单个 神经 元 也 构成 一 个 自 适 应 滤波 器 的 基础 ， 自 适应 滤波 器 是 不 断 发 展 的 信号 处 理 主题 
的 一 个 基本 功能 模块 。 自 适应 滤波 器 的 发 展 很 大 程度 上 要 归功 于 Widrow and Hoff(1960) 有 关 
最 小 均 方 (least mean square,LMS) 算 法 (也 被 称 为 delta 规则 ) 的 经 典 论 文 。LMS 算法 虽然 实现 
很 简单 ， 但 在 应 用 中 有 很 高 的 效率 。 事 实 上 ， 它 在 线性 自 适应 滤波 中 起 着 关键 作用 ， 线 性 指 
的 是 神经 元 在 线性 模型 下 运行 。 自 适应 滤波 器 在 天 线 、 通 信和 系统 、 控 制 系统 、 雷 达 、 声 纳 、 
地 震 学 和 生物 医学 工程 等 很 多 领域 都 有 应 用 (Widrow and Stearns, 1985; Haykin,1996)。 

LMS 算法 和 感知 器 本 质 上 是 相关 的 。 因 此 我 们 把 它们 放 在 同一 章 里 来 学 习 是 适宜 的 。 


本 章 的 组 织 


本 章 分 为 两 部 分 。 第 一 部 分 包括 3.2 节 至 3.7 节 ， 处 理 线性 自 适应 滤波 器 和 LMS 算法 ; 
第 二 部 分 包括 3.8 至 3.10 节 ， 处 理 Rosenblatt 的 感知 器 。 从 表示 的 观点 看 ， 我 们 发 现 先 讨 论 
线性 自 适应 滤波 器 再 讨论 Rosenblatt 感知 器 较为 方便 ， 这 和 它们 在 历史 上 出 现 的 顺序 相反 。 

在 3.2 节 讨论 自 适应 滤波 问题 ， 接 着 在 3.3 节 回 顾 三 种 无 约束 最 优化 技巧 ， 最 速 下 降 
法 、Newton 法 和 Gauss-Newton 法 ， 它 们 都 是 与 自 适 应 滤波 器 研究 有 关 的 。3.4 节 讨 论 线性 最 
小 二 乘 滤波 器 ， 它 随 着 数据 长 度 的 增加 渐 近 趋 于 Wiener 滤波 器 。Wiener 滤波 器 为 线性 自 适 
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应 滤波 器 在 平稳 环境 下 的 运行 性 能 提供 一 个 理想 的 框架 。 在 3.5 节 描 述 LMS 算法 ， 包 括 它 的 
优点 和 局 限 性 。 在 3.6 节 探 讨 通常 用 来 评价 自 适 应 滤波 器 性 能 的 学 习 曲 线 的 思想 。3.7 节 讨 
论 LMS 算法 的 退火 时 间 表 。 

随后 转向 到 Rosenblatt 的 感知 器 ，3.8 节 提 供 一些 与 其 运行 有 关 的 基本 考虑 。3.9 节 描 述 
应 用 于 线性 可 分 类 别 模式 分 类 的 感知 器 突 触 权 值 向 量 的 调整 算法 ， 并 验证 此 算法 的 收敛 性 。 
在 3.10 节 考虑 感知 器 和 Gauss 环境 下 Bayes 分 类 器 的 关系 。 


本 章 以 3.11 节 的 总 结 和 讨论 作为 结束 。 x(i) 0 

` y 输入 xi) z 未 知 动 输出 

3.2 自 适 应 滤波 问题 : 态 系统 d(i) 
X,(i) D 


考虑 一 个 动态 系统 ， 其 数学 特征 未 知 。 我 们 已 
知 的 是 此 系统 在 离散 时 间 内 以 固定 速率 产生 的 一 系 
列 标定 的 输入 - 输出 数据 。 具 体 地 ， 当 一 个 m 维 的 
刺激 x(;i) 通 过 此 系统 的 m 个 输入 节点 ， 系 统 产生 
一 个 标量 输出 d(i) 作 为 响应 ， 如 图 3-1a 所 示 ， 其 
中 i = 1,2,…, n,…。 此 系统 的 外 部 行为 由 数据 


Tiix(i),di)si = 1,2,,n,| (3.1) 
描述 ， 其 中 
x(i) = [x (i), xC i), ,xa (i) ]7 图 3-1 
了 中 的 样本 根据 一 个 未 知 概率 法 则 是 同 分 布 的 。 输 a) 未 知 动态 系统 b) 系 统 自 适应 模型 的 信号 流 图 
入 向 量 x( 站) 的 维 数 称 为 输入 空间 的 维 数 或 简称 为 维 数 (dimensionality)。 
刺激 x(i) 能 够 以 两 种 根本 不 同 的 方式 之 一 出 现 ， 一 种 是 空间 的 和 另 一 种 是 时 间 的 : 
。 x( 让 的 m 个 元 素 代表 空间 中 的 不 同 点 ， 在 这 种 情况 下 我 们 称 x(i) 为 数据 的 瞬 像 
(snapshot) 。 
。 x( 让 的 m 个 元 素 代 表 在 时 间 上 均匀 分 布 的 某 个 刺激 的 现在 和 m -1 个 过 去 的 值 组 成 
的 集合 。 
我 们 面 对 的 问题 是 如 何 通 过 建立 一 个 简单 线性 神经 元 来 设计 未 知 动态 系统 的 一 个 多 输 
入 一 单 输 出 模型 。 这 个 神经 元 模型 是 在 一 个 算法 的 影响 下 运行 的 ， 此 算法 控制 对 神经 元 的 突 
触 权 值 的 必要 调整 ， 同 时 记 住 以 下 要 点 : 
。 此 算法 从 任意 设 定 的 一 个 神经 元 突 触 权 值 开 始 。 
。 为 响应 系统 行为 的 统计 变化 ， 突 触 权 值 调整 是 建立 在 连续 基础 上 的 ( 即 把 时 间 加 进 算 
法 中 )。 
。 调整 突 触 权 值 的 计算 在 长 度 为 一 个 采样 周期 的 时 间 段 里 完成 。 
这 样 描述 的 神经 元 模型 称 为 自 适应 滤波 器 (adaptive filter)。 虽 然 在 作为 系统 辨识 的 一 个 
任务 背景 下 给 出 的 描述 ,但 自 适 应 滤波 器 的 特征 还 是 对 很 广 的 应 用 有 足够 的 一 般 性 。 
图 3-1b 是 一 个 自 适应 滤波 器 的 示意 图 ， 它 的 运行 由 两 个 连续 过 程 组 成 : 
1. 过 滤 过 程 ， 涉 及 两 个 信号 计算 : 
。 一 个 输出 ， 记 为 y(i)， 它 被 产生 以 响应 刺激 向 量 x(i) 的 m 个 元 素 ， 即 x, (i), 
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。 一 个 误差 信和 号， 记 为 e(i), 它 是 通过 比较 输出 y(i) 和 未 知 系统 的 相应 输出 dli)o 
事实 上 ，da(i) 作 为 一 个 期 望 响应 信号 或 者 目标 信号 。 
2. 自 适应 过 程 ， 包 括 根据 误差 e(i) 对 神经 元 突 触 权 值 的 自动 调整 。 
从 而 ， 这 两 个 共同 运作 过 程 的 组 合 构成 一 个 围绕 神经 元 运作 的 反馈 环 。 
因为 神经 元 是 线性 的 ， 输 出 yi) TES BBR oli); 即 
y(i) = v(i) = Dy we (i)a C) (3.2) 
其 中 w (i), w(i), 0, wat) ANTENA i 神经 元 的 m 个 突 触 权 值 。 利 用 和 矩阵 形式 我 们 
可 以 表示 yi) ABE x(i) 和 w(i) 的 内 积 形 式 如 下 : 
y(i) = x"(i)w(i) (3.3) 
这 里 Wi =[ w(i), w(i), =, wa (i) ]” 
注意 这 个 突 触 权 值 的 记号 已 被 简化 ， 不 包括 附加 的 标识 神经 元 的 下 标 ， 因 为 我 们 只 考虑 单个 
神经 元 。 这 种 考虑 贯穿 整个 一 章 。 神 经 元 的 输出 y(i) 要 与 未 知 系统 在 时 刻 i 的 相应 输出 
di) VER. HH, VOSA DRE; 因此 它们 的 比较 结果 得 到 了 误差 信号 : 
e(i) = d(i) - y(i) (3.4) 
误差 信号 e(i) 用 来 对 神经 元 突 触 权 值 调整 进行 控制 的 方式 是 由 用 于 导出 自 适 应 滤波 算法 的 
代价 函数 决定 的 。 这 个 问题 与 最 优化 紧密 相关 。 因 此 回顾 一 下 无 约束 最 优化 方法 是 适宜 的 。 
这 些 材料 不 仅 可 以 应 用 在 线性 自 适应 滤波 器 上 ， 还 可 以 应 用 在 一 般 神经 网 络 上 。 


3.3 无 约束 最 优化 技术 


考虑 代价 函数 86(w)， 它 是 一 个 以 未 知 权 值 (参数 ) 向 量 w 的 连续 可 微 函数 。 函 数 名 (w) 映 
射 w 的 元 素 为 实数 。 它 是 一 种 度量 ， 用 来 选择 自 适应 滤波 算法 的 权 值 (参数 ) 向 量 w 使 得 它 
以 最 优 方式 运行 。 我 们 想 找 到 一 个 最 优 解 w 满足 条 件 








E(w’) < E(w) (3.5) 
也 就 是 说 ， 需 要 解决 一 个 无 约束 的 优化 问题 ， 即 
选择 适当 的 权 值 向 量 Ww 最 小 化 代价 函数 名 (w) (3.6) 
最 优 性 的 必要 条 件 是 
VEé(w") = 0 (3.7) 
这 里 V 是 梯度 算 子 3 3 yar 
V= [二 ,了 人 | (3.8) 
同时 VB(w) 是 代价 函数 的 梯度 向 量 
VE(w) = EE, (3.9) 


一 种 特别 适合 自 适 应 滤波 器 设计 的 无 约束 最 优化 算法 是 以 局 部 迭代 下 降 思 想 为 基础 的 : 
以 一 个 初始 估计 值 w(0) 开 始 ， 产 生 一 系列 权 值 向 量 W(1)，w(2)，…， 使 得 代价 函数 
名 (w) 在 算法 的 每 次 近代 中 要 有 下 降 ， 即 
€(w(n +1)) < E(w(n)) (3.10) 
这 里 W(n) 是 权 值 向 量 的 旧 值 而 W(n+1) 是 它 的 更 新 值 。 
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我 们 希望 算法 最 终 收敛 到 最 优 解 w” 。 我 们 说 “希望 "是 因为 除非 采取 特别 的 预防 措施 ， 
算法 有 可 能 发 散 ( 即 变 得 不 稳定 )。 

在 这 一 节 我 们 描述 三 种 以 迭代 下 降 思 想 这 种 或 那 种 形式 为 基础 的 无 约束 最 优化 方法 
(Bertsekas, 1995a) 。 


最 速 下 降 法 


在 最 速 下 降 法 中 ， 对 权 值 向 量 w 的 连续 调整 是 在 最 速 下 降 的 方向 进行 的 ， 也 就 是 它 是 
与 梯度 向 量 V%(w) 方 向 相反 的 。 为 了 表示 方便 ， 记 为 
g = VE(w) (3.11) 
因此 ， 最 速 下 降 法 一 般 表 示 为 
wn +1) = wn) ~ ng(n) (3.12) 
这 里 了 是 一 个 正常 数 ， 称 为 步 长 (stepsize) 或 学 习 率 参数 (leaming-rate parameter), g(n) FETE 
w(n) 处 的 梯度 向 量 值 。 在 从 迭代 n 到 n+1 的 过 程 中 算法 应 用 修正 
Aw(n) = wn+1)- wn) =- ng(n) (3.13) 
式 (3.13) 实 际 上 是 第 2 章 中 描述 过 的 误差 修正 公式 的 标准 形式 。 
为 了 证 明 最 速 下 降 法 的 公式 满足 式 (3.10) 的 迭代 下 降 条 件 ， 我 们 用 w(n) 附 近 的 一 阶 
Taylor 级 数 展开 来 逼近 旬 (w(nm + 1))， 即 
S(w(n + 1)) ~ EwWn)) + gn)Aw(n) 
上 式 对 较 小 的 是 适用 的 。 在 这 个 近似 关系 代入 式 (3.13) 得 到 
S(w(n + 1)) ~ wn)) -ng (n)g(n) = €(w(n)) -ql g(r) | 
上 式 表 明 ， 对 正 的 学 习 率 参数 1? 代价 函数 每 次 迭代 都 是 下 降 的 。 但 这 里 提供 的 推导 是 近似 
的 ， 只 有 当 学 习 率 足够 小 时 才 是 正确 的 。 
最 速 下 降 法 收敛 到 最 优 解 w 的 速度 是 很 慢 的 。 此 外 ， 学 习 率 参数 1 对 收敛 速度 有 重要 
影响 : 
。 当 1 较 小 时 ， 算 法 的 瞬时 响应 是 平缓 的 (overdamped) ， 由 于 w(n) 的 轨迹 是 wW FR 
一 个 光滑 曲线 ， 如 图 3-2a 所 示 
。 54 较 大 时 ， 算 法 的 瞬时 响应 是 剧烈 的 (underdamped) ， 由 于 w(n) 的 轨迹 是 锯齿 ( 振 
葛 ) 形 的 ， 如 图 3-2b 所 示 。 
。 当 1 超 过 了 某 一 临界 值 时 ， 算 法 是 不 稳定 的 ( 即 不 收敛 的 )。 


Newton 方法 
Newton 方法 的 基本 思想 是 最 小 化 代价 函数 8(w) 在 当前 点 w(n) 周 围 的 二 次 近似 值 ， 最 小 


化 在 算法 的 每 次 迭代 中 都 要 进行 。 特 别 ， 利 用 代价 函数 在 点 w(n) 周 围 的 二 次 Taylor 级 数 展 
开 式 ， 我 们 得 到 


AE(w(n)) = E(w(n + 1)) - E(w(n)) = g"(n)Aw(n) + $ Aw? ( n)H(n)Aw(n) 


(3.14) 
和 以 前 一 样 ，g(n) 是 代价 函数 68(w) 在 点 w(n) 处 的 m x 1 梯度 向 量 。 和 矩阵 H(n) 是 %(w) 在 
W(n) 的 m ÎF m 3i) Hessian ERE, 6(w) fy Hessian 矩阵 定义 为 
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图 3-2 最 速 下 降 法 关于 学 习 率 参数 的 不 同 值 在 二 维 空间 的 轨迹 : 
a)n=0.3 b)ņ=1.0 $R w, 和 ws 是 权 值 向 量 w 的 元 素 
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式 (3.15) 需 要 代价 函数 6(w) 关 于 w 的 元 素 二 阶 连 续 可 微 。 对 式 (3.14) 取 Aw 微分 ” ， 当 
g(n) + H(n)Aw(n) = 0 
时 改变 量 A%(w) 达 到 最 小 。 解 有 关 Aw(n) 的 方程 得 到 
Aw(n) =- H'(n)g(n) 
也 就 是 
win +1) = wn) + Aw(n) = wln) ~ H'(n)g(n) (3.16) 
XE H (n) E(w) Hessian FEE AI. 

一 般 来 说 ，Newton 方法 收敛 得 很 快 ， 而 且 不 会 出 现 最 速 下 降 法 有 时 会 出 现 的 锯齿 形 情 
况 。 但 是 ， 应 用 Newton 方法 时 ，Hessian 矩阵 必须 对 每 个 n 都 是 正定 矩阵 B 。 不 过 ， 一 般 不 
能 保证 在 算法 的 每 次 迭代 中 HCnm) 都 是 正定 和 矩阵。 假如 Hessian EE Hn) PREE, WE 
Newton 方法 就 有 必要 (Powell，1987; Bertsekas, 1995a) 


Gauss-Newton 方法 
Gauss-Newton 方法 应 用 于 这 样 一 PIER 它 表 示 为 误差 的 平方 和 。 令 
Elw) = > ry e’(i) (3.17) 


这 里 尺度 因子 1/2 是 为 了 简化 以 下 的 分 析 。 ASEFI RSSA DURIA w 为 基 
础 计算 得 来 的 ， 这 里 w 在 遍及 1<i<n FO AB PRI Be FPA TEV 

误差 信号 e(i) 是 可 调 权 值 向 量 w 的 函数 。 给 定 操作 点 w(n)， 我 们 通过 以 下 方式 来 线性 
化 e( 让 对 w 的 依赖 性 : 





e'(i,w) = eli) + [2$2] (w—w(n)),i = 1,2, =n (3.18) 
用 矩阵 记号 可 写成 等 价 的 形式 
e(n,w) = e(n) + J(n)(w- wn)) (3.19) 
其 中 e(n) 是 误差 向 晤 


e(n) = [e(1),e(2),…,e(n)]” 
J(n) Fe e(n) AY n x m Jacobi ERF: 


























de(1l) 3e) |, deQ) 
Ow, Iw, 9 wn 
9e(2) aeC) . de(2) 
J(n)=| Sw ow, IW (3.20) 
deln) de(n) . de(n) 
3w, Iw, OWm -ww 


Jacobi 矩阵 J(n) Æ m x n 梯度 矩阵 Vel( nn) 的 转 置 ， 这 里 
Ve(n) = [Ve(1),Ve(2),:……,Ve(n)| 
更 新 的 权 值 向 量 w(n + 1) 定 义 为 


wn+1)= arg min| > lle’ (n,w) || 2) (3.21) 
利用 等 式 (3.19) 来 估计 e(n, w) A) Euclid 范 数 的 平方 ， 我 们 得 到 








Fen wl? =F lh en) l? + en) In) (w - wn)) 


+ $(w - w6n))I'(n) In) (w - wn)) 


因此 ， 将 以 上 表示 方式 对 w 求 微分 并 设 结果 为 零 ， 我 们 得 到 
J (n)e(n) +T (nn)(w- wn))=0 
从 这 个 方程 中 解 出 w， 考 虑 到 式 (3.21) 我 们 可 写 为 : 
wn+1) = wn) -= (Fn)J(n)) "I (n)e(n) (3.22) 
上 式 描 述 Gauss-Newton 方法 的 纯粹 形式 。 

不 像 Newton 方法 必须 知道 代价 函数 6(n) 的 Hessian 矩阵 ，Gauss-Newton 方法 只 需要 已 知 
误差 向 量 e(n) 的 Jacobi 矩阵 。 但 是 ， 为 了 使 Gauss-Newton HCAS, EERE J (n)I(n) 
必须 是 非 奇 异 的 。 

关于 后 一 点 ， 我 们 认识 到 了 J(n)K(n) 总 是 非 负 定 的 。 为 了 保证 它 是 非 奇 异 的 ，Jacobi $i 
阵 J(n) 的 行 秩 必须 是 n; 也 就 是 说 ， 式 (3.20) 中 In) n 行 必须 是 线性 无 关 的 。 不 过 ,我 
们 并 不 能 保证 这 个 条 件 总 是 满足 。 为 了 防止 J(n) 的 秩 亏 损 ， 通常 的 办 法 是 给 矩阵 J(n) 
Jn) 加 一 个 对 角 和 矩阵 ST, BR 8 是 一 个 小 的 正常 数 ， 它 的 选择 必须 保证 

Tan) + SI 对 所 有 了 都 是 正定 的 
在 这 个 基础 上 ，Gauss - Newton 方法 以 下 面 微小 修正 形式 实现 ， 
wn+1) = wn)- (Tn)Jn) + DTI (n)e(n) (3.23) 
SERRE n 不 断 增 大 时 ， 这 个 修正 的 影响 是 逐 浙 减 少 的。 同时 注意 递归 式 (3.23) 是 修正 的 
代价 函数 , 
E(w) = {aw- wln) ll? + yeti} (3.24) 


的 解 ， 其 中 w(n) 是 权 值 向 量 w( i) SL 
现在 我 们 已 经 具备 了 解决 线性 自 适应 滤波 器 涉及 的 特殊 问题 所 需 的 最 优化 工具 。 


3.4 线性 最 小 二 乘 滤波 器 


同 标题 暗示 的 一 样 ， 一 个 线性 最 小 二 乘 滤波 器 有 两 个 明显 的 特征 。 第 一 ， 在 它 构 造 周转 
的 神经 单元 是 线性 的 ， 如 图 3- 1b 的 模型 所 示 。 第 二 ， 用 来 设计 滤波 器 的 代价 函数 8(w) 是 误 
差 平方 和 ， 如 式 (3.17) 的 定义 。 在 这 个 基础 上 ， 利 用 式 (3.3) 和 (3.4)， 误 差 向 量 e(n) 可 以 表 


示 如 下 : 
e(n) = d(n) - [x(1),x(2), =, x(n)] wn) = d(n) - X(n)w(n) (3.25) 


其 中 d(n) 是 n x1 的 期 望 响应 向 量 : 
d(n) = [d(1),qd(2),…,d(n)]” 
X(n) n x m 的 数据 矩阵 : 
X(n) = [x(n),x(2),-+,x(n)]” 
由 式 (3.25) 对 w(n) 取 微分 得 到 梯度 矩阵 
Ve(n) =- X"(n) 
相应 地 ，e(n) 的 Jacobi 矩阵 是 
Jn) = - X(n) (3.26) 
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因为 误差 式 (3.19) 对 权 值 向 量 w(n) 已 是 线性 的 ， 如 下 所 示 Gauss-Newton 方法 在 一 次 迭代 后 
收敛 。 将 式 (3.23) 和 (3.26) 代 和 人 (3.22) 得 到 
wn + 1) = win) + (X° (n)X(n)) 'X"(n)(d(n) - X(n)w(n)) 
= (X7(n)X(n))'X"(n)d(n) 
项 (X (n)X(n)) X" (mn) 被 看 作 是 数据 矩阵 X(n ) 14) 24 2# (Golub and Van Loan(1996), Haykin 
(1996)); BẸ 


(3.27) 


X (n) = (X"(n)X(n)) X" (n) (3.28) 
因此 ， 我 们 可 以 把 式 (3.27) 改 写 为 紧凑 的 形式 : 
wn+1) = X* (n)d(n) (3.29) 


这 个 公式 表示 下 面 陈述 的 一 个 简便 方式 :“ 权 值 向 量 w(n + 1) 求 解 定义 在 持续 时 间 为 n 的 一 
个 观察 区 间 上 的 线性 最 小 二 乘 问题 。” 


Wiener 滤波 器 : 各 态 历经 环境 下 的 线性 最 小 二 乘 滤波 器 的 极限 形式 


一 个 有 趣 的 情形 是 : 当 输 入 向 量 x(i) 和 期 望 响 应 d(i) 来 自 于 各 态 历 经 (ergodic) 平 稳 环 
境 。 我 们 可 以 用 长 期 样本 均值 或 时 间 均 值 来 代替 期 望 或 总 体 均 值 ( Gray and Davisson, 1986). 
这 样 一 个 环境 可 以 部 分 用 以 下 二 阶 统计 量 来 描述 : 
。 输入 向 量 x(i) 的 相关 和 矩阵 (correlation matrix); 记 为 R, 
。 输入 向 量 x(i) 和 期 望 响应 4(i) 之 间 的 互相 关 向 量 (cross-correlation vector); 记 为 ruo 
这 两 个 量 分 别 定义 如 下 : 
R, = EIDA G] = lim 3 Px) (i) = 各 二 XrCODXCOD) (3.30) 


re = Elx(i)d(i)] = lim + Sxl dCi) = = lim 4X" (n)d(n) (3.31) 
其 中 表示 统计 期 望 算 子 。 相 应 地 ， 我 们 可 以 把 式 (3. 27) 的 线性 最 小 二 乘 解 改写 为 : 
w, = limw(n +1) = lim (X? (n)X(n))7X"(n)d(n) 
1 7 1 lyr 1 (3.32) 
= lim mae. (n)X(n))7 lim -X (n)d(n) = Re ra 
这 里 R 是 相关 矩阵 R; 的 逆 。 为 了 纪念 Norbert Wiener 对 这 个 问题 作出 的 贡献 , 权 值 向 量 w, 
称 为 线性 最 优 滤波 问题 的 Wiener 解 (Widrow and Stearns, 1985; Haykin,1996 )。 因 此 ， 我 们 可 以 
作出 以 下 的 陈述 : 
对 一 个 各 态 历 经 过 程 ， 当 观察 样本 数 趋 于 无 穷 时 ， 线 性 最 小 二 乘 滤 波 器 渐进 趋 于 Wiener 
设计 Wiener 滤波 器 需要 二 阶 统计 量 的 知识 : 输入 向 量 x(m) 的 相关 和 矩阵 RA x(n) 与 期 
望 响应 d(n) 的 互相 关 向 量 r,s。 但 是 ， 在 实际 过 到 的 很 多 重要 情况 下 这 些 信息 都 是 未 知 的 。 
我 们 可 以 利用 线性 自 适 应 滤波 器 (linear adaptive filter) 来 处 理 未 知 的 环境 ， 自 适应 在 这 里 的 意 
思 是 滤波 器 能 够 调整 自己 的 自由 参数 来 响应 环境 的 统计 变化 。 在 连续 基础 上 作 这 类 调整 的 一 
个 流行 的 算法 是 最 小 均 方 算 法 ， 它 是 与 Wiener 滤波 器 密切 相关 的 。 
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3.5 最 小 均 方 算法 
最 小 均 方 (least mean square, LMS ) 算 法 建立 的 基础 是 利用 代价 函数 的 瞬时 值 ， 即 








€(w) = eln) (3.33) 
这 里 e(n) 是 n 时 刻 的 测 得 的 误差 。 iain wok Sp BG Bl 
如 同 在 线性 最 小 二 乘 滤 波 器 上 一 样 ， ine 算法 运行 在 个 上 性 神经 元 可 以 把 误差 信号 表示 为 
e(n) = d(n) — x"(n) wn) (3.35) 
因此 sett} = x(n) 
和 AW = -x(n)e(m) 
把 后 者 作为 梯度 向 量 的 一 种 估计 ， 可 以 记 
g(n) =- x(n)e(n) (3.36) 
最 后 ， 利 用 式 (3.36) 作 为 式 (3.12) 中 的 最 速 下 降 法 的 梯度 向 量 ， 可 以 写 出 LMS 算法 公式 
W(n +1) = W(n) + n(n)e(n) (3.37) 


这 里 了 是 学 习 率 参数 。LMS 算法 中 围绕 权 值 向 量 多 (m) 的 反馈 环 的 作用 就 像 一 个 低 通 滤波 器 ， 
即 通过 误差 信号 的 低频 分 量 ， 而 期 弱 高 频 分 量 (Haykin,1996) 。 过 滤 动 作 的 平均 时 间 常 数 与 学 
习 率 参数 1 成 反比 。 因 此 ， 给 刀 赋 一 个 较 小 的 值 ， 自 适应 过 程 将 进展 缓慢 。 由 此 更 多 的 过 去 
数据 被 LMS 算法 记忆 ， 导 致 一 个 更 精确 的 过 滤 过 程 。 换 名 话说， 学 习 率 参数 7 的 倒数 是 LMS 
算法 记忆 的 一 种 度量 。 

FEX (3.37) PRAT Wn) CE w(z) 用 来 强调 这 样 一 个 事实 : 利用 最 速 下 降 法 可 以 得 到 
一 个 权 值 向 量 而 LMS 算法 产生 该 权 值 向 量 的 一 个 佑 计 值 。 所 以 ， 使 用 LMS 算法 时 我 们 牺牲 
掉 最 速 下 降 法 的 一 个 明显 特征 。 在 最 速 下 降 法 中 ， 对 一 个 给 定 的 1 权 值 向 量 w(n) 在 权 值 空 
间 中 有 一 个 明确 定义 轨迹 。 对 比 之 下 ,在 LMS 算法 中 权 值 向 量 鲍 (n) 则 跟踪 一 个 随机 的 轨 
迹 。 由 于 这 个 原因 ，LMS 算法 有 时 也 被 称 为 “随机 梯度 算法 "。 当 LMS 算法 的 迭代 次 数 趋 于 
无 限时 ，W(n) 在 Wiener 解 w, 周围 随机 移动 (布朗 运动 )。 重 要 的 事实 是 ， 不 像 最 速 下 降 法 ， 
LMS 算法 不 需要 知道 环境 的 统计 特性 。 

在 表 3-1 中 小 结 LMS 算法 ， 它 清楚 表明 这 种 算法 的 简单 性 。 如 这 个 表 中 表明 的 ， 对 于 
算法 的 初始 化 ， 一 般 设 算法 中 的 权 值 向 量 初始 值 设 为 零 。 


33-1 LMS 算法 小 结 


训练 样本 : 输入 信号 向 量 =x(n) 
期 望 响 应 = d(n) 

用 户 选择 参数 : 7 

初始 化 : RE W(n) =0 

计算 : 4n=1,2,-", 计算 


e(n) = d(n) -W"(n)x(n) 
W(n+1) =W(n) + ox(n)e(n) 














en 
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LMS 算法 的 信号 流 图 表示 


结合 式 (3.35) 和 (3.37)， 我 们 可 以 把 LMS 算法 中 的 权 值 向 量 演变 过 程 表示 如 下 : 
W(n + 1) = Wn) + mn) dn) -x (n)W(n)] 
= [I- Px Cn) HC) + Rd) 

这 里 工 是 单位 矩阵 。 通 过 运用 LMS 算 Sp TE 

法 ， 我 们 认识 到 
W(n) = z'[W(n + 1)] (3.39) 
这 里 2 是 单位 延迟 操作 符 ， 意味 着 
存储 。 利 用 式 (3.38) 和 (3.39)， 可 以 
me 3-3 描绘 的 信号 流 图 表示 LMS 算 
法 。 这 个 信号 流 图 揭示 LMS 算法 是 随 
机 反馈 系统 的 一 个 实例 。 反 馈 的 出 现 


(3.38) 





nx(n) dm + + A 、 
ER P win) 


对 LMS 算 法 的 收敛 有 重要 影响 。 
LMS 算法 的 收敛 考虑 

从 控制 论 我 们 知道 反馈 系统 的 稳 mE) 
定性 是 由 组 成 反馈 环 的 参数 决定 的 。 图 3-3 ”LMS 算法 的 信和 号 流 图 表示 


从 图 3-3 看 出 ， 正 是 较 低 的 反馈 环 在 LMS 算法 的 运行 中 加 入 可 变性 。 特 别 是 ， 有 两 个 不 同 
的 量 ， 即 学 习 率 参数 1 和 输入 向 量 x(n)， 决 定 这 个 反馈 环 的 传输 系数 。 因 此 我 们 推出 输入 
向 量 x(n) 的 统计 特征 和 学 习 率 参数 的 取 值 影响 LMS 算法 的 收敛 行为 ( 即 稳定 性 )。 用 不 同 的 
方法 使 用 这 个 观察 ， 可 以 陈述 对 于 提供 输入 向 量 x(n) 的 特定 环境 ， 我 们 必须 仔细 选择 学 习 


率 参数 以 便 使 LMS 算法 收敛 。 
LMS 算法 的 第 一 个 收敛 准则 是 平均 收敛 ， 描 述 为 
E[W(n)]>w, “4 n —> o 时 (3.40) 


这 里 w, 是 Wiener 解 。 不 过 ， 这 样 一 个 收敛 准则 没有 多 少 实用 价值 ， 因 为 一 系列 零 均值 而 其 
他 为 任意 的 随机 向 量 在 这 种 意义 下 是 收敛 的 。 
从 实际 情况 考虑 ， 真 正 的 收敛 应 该 是 均 方 收敛 ， 描 述 为 


EL[e (n)] 一 常数 当 n 一 % 时 (3.41) 
但 是 ， 一 个 LMS 算法 的 均 方 收敛 的 详细 分 析 是 相当 复杂 的 。 为 了 使 这 个 分 析 在 数学 上 可 行 ， 


通常 作出 下 列 假设 : 

1. 顺序 的 输入 向 量 x(1) ，x(2) ，… 互相 统计 独立 。 

2. 在 第 n 步 ,输入 向 量 x(n) 对 以 前 样本 的 期 望 响 应 4(1)，a(2)，…，d(n - 1) 是 统计 
独立 的 。 

3. 在 第 n 步 ， 期望 响应 4(n) 与 x(n) 有 关 ， 但 对 以 前 的 所 有 期 望 响 应 统计 独立 。 

4. 输入 向 量 x(n) 和 期 望 响 应 d(n) 抽 取 自 Gauss 分 布 总 体 。 

在 此 基础 上 的 LMS 算法 统计 分 析 称 为 独立 理论 (independence theory) (Widrow et al. , 1976)。 

通过 引入 独立 理论 原理 并 假设 学 习 率 参数 ?足够 小 ，Haykin(1996) 证 明 只 要 了 满足 条 件 
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0<n< = (3.42) 


LMS 是 均 方 收 敛 的 ， 这 里 Aa EKER RR KAE. (AE, E LMS 算法 的 典型 应 用 
中 ，Xw 是 未 知 的 。 为 了 克服 这 个 困难 ，R, 的 迹 (trace) 被 当 作 ,的 保守 估计 ， 在 这 种 情况 


下 ， 等 式 (3.42) 可 以 改写 为 


O<n< WR) (3.43) 


这 里 of R。] 表 示 和 矩阵 RHA. RHEL, —SHANMSTHRMATRWA., AWK 
E R. 的 对 角 元 素 等 于 相关 传感器 输入 的 均 方 值 ， 我 们 可 以 重新 表述 LMS 算法 均 方 收敛 的 条 
件 如 下 : 


(3.44) 





2 
0 < 1 < ERR RANE TEZA 
如 果 学 习 率 参数 满足 此 条 件 ， 那 么 TMS 算法 也 能 保证 平均 收敛 。 就 是 说 ， 均 方 收敛 能 推出 
平均 收 和 你 ， 但 反 过 来 不 一 定 成 立 。 


LMS 算法 的 优点 和 局 限 


正如 表 3-1 算法 概述 中 说 明 的 那样 ，LMS 算法 重要 优点 就 是 简单 。 此 外 ，LMS 算法 是 模型 
独立 的 ， 因 此 是 鲁 棒 的 ， 这 意味 这 人 小 的 模型 不 确定 性 和 小 的 扰动 ( 即 小 的 能 量 扰动 ) 只 可 能 导致 
小 的 估计 误差 (误差 信号 )。 用 精确 的 数学 术语 ，LMS 算法 按照 8” 准则 (或 最 小 最 大 准则 ) 是 最 
优 的 (Hassibi et al. ,1993,1996)。 在 H” 意 义 下 的 最 优 性 基本 原理 要 对 付 最 坏 情 况 中 : 


如 果 你 不 知道 你 面 对 的 是 什么 ,计划 最 坏 的 情况 并 优化 它 。 


长 期 以 来 LMS 算 法 被 当 作 梯 度 下 降 法 的 瞬时 逼近 。 但 是 ，LMS 的 H 最 优 性 为 这 个 广泛 
应 用 的 算法 提出 了 一 个 严格 的 基础 。 特 别 ， 它 解释 算法 在 稳定 和 不 稳定 环境 下 的 令 人 满意 工 
作 的 能 力 。 这 里 “不 稳定 ”环境 是 指 统 计 特 性 随时 间 变 化 的 环境 。 在 这 样 一 个 环境 下 ， 最 优 的 
Wiener 解 随时 间 变 化 ，LMS 算法 现在 有 了 一 个 附加 任务 一 一 跟踪 Wiener 滤波 器 参数 的 变化 。 
LMS 算 法 的 主要 局 限 性 是 收敛 速度 较 慢 ， 并 且 对 输入 特征 结构 的 变化 反应 较 灵 敏 
(Haykin，1996)。LMS 算法 一 般 需 要 输入 空间 维 数 十 倍 的 迭代 次 数 才 能 达到 稳定 状态 。 当 输 


和 空间 维 数 较 高 时 缓慢 的 收敛 速度 会 变 得 特别 严重 。 至 于 对 环境 条 件 的 变化 反应 很 灵敏 ， 


LMS 算法 对 输入 向 量 x 的 相关 和 矩阵 Re 的 条 件数 或 特征 值 散布 的 变化 反应 特别 灵敏 。R. 的 条 
件数 记 为 X(R.)， 定 义 如 下 : 


Au 
xR) = 和 (3.45) 


这 里 xu 和 xm 分 别 是 矩阵 R. 的 最 大 和 最 小 特征 值 。 当 输入 向 量 x(n) 所 属 的 训练 样本 是 病态 
情况 时 ， 也 就 是 当 条 件数 x (RL) BERK, LMS 算法 对 条 件数 x (R,) 变 化 的 灵敏 变 得 特别 严 
重 。 注 意 LMS 算法 的 Hessian 和 矩阵 定义 为 代价 函数 6(w) 对 w 的 二 阶 导数 ， 它 等 于 相关 矩阵 
R; 请 见习 题 3.8。 因 此 ， 在 这 里 的 讨论 中 ， 我 们 用 Hessian 矩阵 替换 相关 和 矩阵 及 .所 有 讨论 
仍然 成 立 。 
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3.6 FS) HA 


一 个 检验 LMS 算法 或 一 个 普通 自 适应 滤波 器 的 收敛 行为 的 非 正式 方法 是 绘制 滤波 器 在 
变化 环境 条 件 下 的 学 习 曲 线 。 学 习 曲 线 是 绘制 估计 误差 的 均 方 值 8,(m) 关 于 迭代 次 数 的 
图 像 。 

设想 一 个 试验 涉及 一 个 滤波 器 总 体 ， 每 个 滤波 器 在 特殊 算法 控制 下 运行 。 假 设 算法 的 细 
节 ， 包 括 初始 化 ， 对 所 有 滤波 器 是 一 样 的 。 滤 波 器 之 间 的 差异 是 来 源 于 可 用 的 训练 样本 的 输 
入 向量 x(n) 与 期 望 响 应 d(n) 的 抽取 的 随机 方式 不 同 。 对 每 一 个 滤波 器 我 们 画 出 佑 计 误 差 
( 即 期 望 响 应 与 实际 滤波 器 输出 之 差 ) 的 平方 值 关 于 迭代 次 数 的 图 像 。 一 条 样本 学 习 曲 线 由 品 
声 指数 组 成 ， 躁 声 来 源 于 滤波 器 固有 的 随机 性 。 为 了 计算 总 体 平均 学 习 曲 线 ( 即 名, (n) 关 于 
n 的 图 像 ) ， 我 们 利用 试验 中 滤波 器 总 体 的 样本 学 习 曲 线 的 平均 ， 从 而 平滑 噪声 的 影响 。 

假设 自 适 应 滤波 器 是 稳定 的 ， 我 
们 发 现 总 平均 学 习 曲 线 是 从 由 初始 条 
件 决定 的 一 个 很 大 的 值 6,, (0) 开 始 ， 然 
后 以 某 种 速率 下 降 ， 此 速率 由 滤波 器 
的 使 用 种 类 决定 ， 最 后 收敛 到 一 个 稳 
EHE., (0), ， 如 图 3-4 所 示 。 在 学 习 
曲线 的 基础 上 我 们 能 够 定义 自 适应 滤 
波 器 的 收敛 速率 为 6,, (=”) 减 少 到 任意 
一 个 选 定 值 (例如 原始 值 %, (0) 的 
10% ) 所 需 的 迭代 次 数 no 

另 一 个 由 学 习 曲 线 推 出 的 有 用 的 。 ole 0， 
自 适 应 滤波 器 特性 是 误 调 节 (misadjust- 


a(n) 


总 体 均 方 误差 





ment), WHM, SE KIR Wiener 滤 €(~) 
波 器 产生 的 最 小 均 方 误差 ， 它 在 已 知 
收敛 速率 选 代 次 数 
AEM R 和 互相 关 向 量 r,, 值 的 基础 
上 设计 。 我 们 可 以 定义 自 适应 滤波 器 图 3-4 LMS 算法 的 理想 学 习 曲 线 
的 误 调节 如 下 (Widrow and Steams,1985; Haykin, 1996) : 
Mm = O82) -em Ble), (3.46) 


Eai E 


min 


RH HME—-TRERKE, CADRE A EERE REENT ARRA SIL. 4 
对 单位 1 来 说 人 4 越 小 ， 算 法 的 自 适应 过 滤 行 为 就 越 精确 。 通 常 把 误 调节 以 表示 为 百分比 形 
式 。 所 以 ， 例 如 一 个 10% 的 误 调节 意味 着 自 适应 滤波 器 (在 适应 完成 后 ) 产 生 一 个 比 相应 的 
Wiener 滤波 器 产生 的 最 小 均 方 误差 ,大 10% 的 均 方 误差 。 这 种 情况 在 实际 中 通常 被 认为 是 
令 人 满意 的 。 

男 一 个 LMS 算 法 的 重要 特性 是 稳定 时 间 (settling time)。 但 是 ， 对 稳定 时 间 并 没有 惟一 的 
定义 。 例 如 ,我们 可 以 用 具有 给 定 平均 时 间 常 数 rw 的 单 指数 函数 曲线 来 逼近 学 习 曲 线 ， 然 
后 利用 所 得 的 z, 当 作 稳 定时 间 的 粗略 度量 。z, 值 越 小 ， 稳 定时 间 就 越 快 ( 即 LMS 算法 越 快 收 
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Xt FS OR UL, LMS 算法 的 误 调节 从 是 与 学 习 率 参数 1 成 正比 的 ， 而 平 
均 时 间 常 数 rw 是 与 学 习 率 参数 ?成 反比 的 (Widrow and Stearns, 1985; Haykin, 1996 )。 我 们 因此 
有 这 样 一 个 着 盾 的 结果 : 如 果 降 低 学 习 率 参数 使 得 误 调节 下 降 ， 那 么 LMS 算法 的 稳定 时 间 
将 增加 。 反 过 来 ， 如 果 增 加 学 习 率 参数 加 速 学 习 过 程 ， 那 么 误 调 节 也 增加 。 因 此 在 设计 LMS 
算法 时 对 学 习 参 数 ?的 选择 必须 特别 注意 ， 这 样 才能 得 到 一 个 满意 的 整体 性 能 。 

3.7 学 习 率 退火 进度 
LMS 算法 遇 到 的 困难 可 归 因 于 学 习 率 参数 在 计算 过 程 中 保持 不 变 ， 表 示 为 
n(n) = No SATA n (3.47) 
这 只 是 学 习 率 参 数 假设 最 简单 的 可 能 形式 。 相 反 ， 在 Robbins 和 Monro 有 关 随机 远近 的 经 典 
论文 中 (1951)， 学 习 率 参数 是 随时 间 改 变 的 。 在 随机 逼近 文献 中 最 常用 到 的 学 习 率 参数 随时 
间 变 化 的 形式 是 
qn) = È (3.48) 


这 里 “ 是 常数 。 这 样 一 个 选择 确实 足够 保证 随机 逼近 算法 的 收敛 性 (Liung， 1977; Kushner and 
Clark ,1978 )。 但 是 ， 当 常数 。 较 大 时 ， 对 于 较 小 的 = 参数 有 可 能 出 现 参数 放大 的 危险 。 

作为 等 式 (3.47) 和 (3.48) 的 替代 物 ， 我 们 可 以 使 用 Darken and Moody(1992) 定 义 的 搜寻 后 
收 化 进度 (search-then-converge schedule) 


n(n) = 区 (3.49) 
这 里 % 和 是 用 户 选择 的 常数 。 
在 自 适 应 的 早期 阶段 ， 即 迭代 次 
数 n 相对 搜寻 时 间 常 数 t 较 小 时 ， 7” 标准 LMS 算 法 


学 习 率 参数 n(n) 近 似 等 于 mn。， 算 

法 运行 实际 上 也 是 与 “标准 ”LMS 7 
算法 一 样 的 ， 如 图 3-5 所 示 。 因 
此 ， 通 过 在 允许 范围 内 选择 一 个 
较 大 加， 我 们 希望 对 滤波 器 的 可 
调 权 值 能 找到 在 一 组 较 好 的 值 并 
在 其 中 上 下 浮动 。 然 后 ， 当 选 代 
次 数 n 比 搜寻 时 间 常 数 + 大 时 ， 
学 习 率 参数 近似 为 cin, KB c= 
mo， 如 图 3-5 所 示 。 算 法 现在 以 
一 个 传统 的 随机 逼近 算法 运行 ， 
且 权 值 收敛 到 它们 的 最 优 值 。 这 
样 搜寻 后 收敛 进度 具有 把 标准 oom 
LMS 算法 的 期 望 特征 和 传统 随机 

通 近 理论 结合 起 来 的 潜力 。 图 3-5 学 习 率 退火 进度 


0.1m 
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3.8 感知 器 


我 们 现在 进入 本 章 的 第 二 部 分 ， 人 处理 Rosenblatt 的 感知 器 ， 以 后 都 简称 为 感知 器 (peroceptron)。 
前 面 几 节 找 述 的 LMS 算法 建立 在 一 个 线性 神经 元 上 ， 而 感知 器 建立 在 一 个 非 线性 神经 元 上 ， 
即 神经 元 的 McCulloch-Pitts 模型 。 我 们 回忆 第 1 
章 里 讲 的 这 种 神经 元 模型 由 一 个 线性 组 合 器 和 随 
后 的 硬 限 幅 器 (执行 一 个 符号 函数 ) 组 成 ， 如 图 
3-6 所 示 。 神 经 元 模型 的 求 和 节点 计算 应 用 于 突 RA 
触 上 的 输入 的 一 个 线性 组 合 ， 同 时 也 合并 一 个 外 
部 的 应 用 偏 置 。 这 个 计算 得 出 的 和 ， 也 就 是 诱导 
局 部 域 ， 被 用 到 一 个 硬 限 幅 器 。 于 是 当 硬 限 幅 带 
和 输入 为 正 时 ， 神 经 元 输出 + 1， 反 之 则 输出 - 1。 图 3-6 感知 器 的 符号 流 图 

在 图 3-6 的 符号 流 图 模型 中 ， 感 知 器 的 突 触 权 值 记 为 w, w, s Wao WAW, MF 
感知 器 的 输入 量 记 为 x, ，x;，…，xa。。 外 部 应 用 偏 置 记 为 %。。 从 这 个 模型 我 们 发 现 硬 限 幅 
器 输入 或 神经 元 的 诱导 局 部 域 是 





v= 2 i +b (3.50) 


感知 器 的 目的 是 把 外 部 应 用 刺激 x). t s x, 正确 分 为 @, ME, 两 类 。 分 类 规则 是 : 如 
果 感 知 器 输出 y 是 + 1 就 将 x1，%x。，…，xa 表示 的 点 分 人 类 %, ， 如 果 感 知 器 输出 7 是 - 1 
则 分 人 4: 。 

为 了 进一步 观察 模式 分 类 器 的 行为 ， 一 般 要 在 m 维 信号 空间 中 画 出 决策 区 域 图 ， 这 个 
空间 是 由 mm 个 输入 变量 x, ，x,，…，%* 张 成 的 。 在 最 简单 的 感知 器 中 有 被 一 个 超 平面 分 开 
的 两 个 决策 区 域 ， 此 超 平面 定义 为 


>) wx; +b=0 (3.51) 


对 两 个 输入 变量 x 和 x, 的 情况 已 在 图 3-7 中 举例 说 
明 ， 图 中 的 决策 边界 是 直线 。 位 于 边界 线 上 方 的 点 
(x1,%2) 分 人 %) 类 ， 位 于 边界 线 下 方 的 点 (x , x2) 分 
AS, 类 。 注 意 这 里 偏 置 b 作用 仪 仪 把 央 策 边界 从 原 
ABH o 
感知 器 的 突 触 权 值 wi, w, 7, Wma 可 以 通过 
多 次 迁 代 达到 适应 。 对 于 自 适应 性 我 们 可 以 使 用 通 
称 为 感知 器 收敛 算法 的 误差 修正 规则 。 
决策 边界 


3.9 感知 器 收 敏 定理 | wat 


为 了 导出 感知 器 误差 修正 学 习 算 法 ， 我 们 发 现 图 3-7 作为 一 个 两 维 两 类 模式 分 类 
处 理 图 3-8 中 的 修改 的 信号 流 图 更 方便 。 在 这 个 与 问题 的 决策 边界 的 一 个 超 平面 的 实例 
图 3-6 中 模型 等 价 的 第 二 个 模型 中 ， 偏 置 b(n) 被 当 (在 这 个 例子 中 超 平面 是 一 条 直线 ) 





=) 
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作 一 个 等 于 + 1 的 固定 输入 量 驱 动 的 突 触 权 值 。 BE = 
我 们 因此 定义 {m+1)x1 输 入 向 量 
x(n) = [4+ 1,x Cn), x(n) xa (2)]” 
这 里 n 表示 使 用 算法 时 的 类 代步 数 。 相 应 地 我 输入 
们 定义 (m +1) x 1 RÉME 
wn) = [b(n), wn), wn) ,wn)]” x 


因此 ， 线 性 组 合 器 的 输出 可 以 写成 紧凑 形式 





v(n) 到 >} wi(n)x;(n) re w'(n)x(n) (3.52) 图 3-8 等 价 的 感知 器 信号 流 图 ; 为 
0 清楚 起 见 省 略 了 对 时 间 的 依赖 性 


这 里 wo(n) 表 示 偏 置 5(z)。 对 固定 的 n, FA 
Ww x=0 在 有 关 zx!，x,，…，x。 的 m 维 空间 中 (对 某 些 规定 偏 置 ) 定 义 了 一 个 超 平面 ， 它 就 是 
两 个 不 同 输入 类 之 间 的 决策 平面 。 

为 了 感知 器 正确 工作 ，%, 和 %, 两 个 类 必须 是 线性 可 分 的 。 这 意味 着 待 分 类 模式 必须 分 
离 得 足够 开 以 保证 决策 平面 是 超 平面 。 这 个 要 求 对 两 维 感知 器 的 情形 如 图 3-9 所 示 。 在 图 
3-9a 中 两 个 类 6 AC, 分 离 得 足够 开 ， 使 得 我 们 能 画 一 个 超 平面 (在 此 例 中 是 一 条 直线 ) 作 为 
决策 边界 。 但 是 ,假如 允许 两 个 类 ,和 %&, 靠 得 太 近 ， 如 图 3-9b 所 示 ， 它 们 就 变 成 非 线性 可 


分 的 ， 这 种 情况 超出 了 感知 器 的 计算 能 力 。 
决策 边界 





图 3-9 
a) 一 对 线性 分 离 模式 ”b) 一 对 非 线性 分 离 模 式 
假设 感知 器 的 输入 变量 来 源 于 两 个 线性 可 分 类 。 设 和 为 训练 向 量 x, (1), x (2), P 
属于 类 %, 的 向 量 组 成 的 子 集 ©, 表示 训练 向 量 %(1)，%(2)，… 属 于 类 %, 的 向 量 组 成 的 子 
Wo X Ae, 的 并 集 是 整个 训练 集 完 。 给 定向 量 集 E， 和 %, 来 训练 分 类 器 ， 训 练 过 程 涉及 对 权 
值 向 量 w 的 调整 使 得 两 个 类 %, HG, 线性 可 分 。 也 就 是 ， 存 在 一 个 权 值 向 量 中 具有 以 下 性 质 
wx>0 ”对 属于 类 %, 的 每 个 输入 向 量 x 
wrx < 0 HETG 的 每 个 输入 向 量 x 
在 式 (3.53) 的 第 二 行 中 当 wx = 0 时 我 们 随意 地 选择 输入 向 量 x 属于 类 %,。 给 定 训练 向 量子 集 
X AK, ， 简 单 感知 器 的 训练 问题 就 是 找到 一 个 权 值 向 量 w 满足 式 (3.53) 中 的 两 个 不 等 式 。 
使 基本 感知 器 的 权 值 向 量 自 适应 的 算法 现在 可 以 用 以 下 公式 表述 : 


(3.53) 
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1. 假如 训练 集合 的 第 nn 个 成 员 x(n) 根 据 算 法 中 的 第 n 次 迭代 的 权 值 向 量 w(n) 正 确 分 
类 ， 那 么 感知 器 的 权 值 向 量 按 下 述 规 则 不 会 修改 : 
wn+1) = wn) Ru w x(n) > OH x(n) BFS, 


3.54 
w(n +1) = w(n) 假如 w'x(n) < OB x(n) BFRE, ( ) 

2. 否则 ， 感 知 器 的 权 值 向 量 根据 以 下 规则 更 新 : 
wn +1) = wn)- n(n)x(n) 假如 w (n)x(n) > 0 H x(n) BFE, (3.55) 


wn +1) = wn) + n(n)x(n) 假如 w (n)x(n) <0 H x(n) 属于 类 %, 

这 里 学 习 率 参数 A n) 控 制 在 第 n 次 迭代 中 对 权 值 向 量 的 调节 。 

假如 mn)=7n>0， 这 里 7 是 与 迭代 次 数 n 无 关 的 常数 ， 我 们 有 一 个 感知 器 的 固定 增 量 
自 适应 规则 。 

后 面 我 们 首先 证 明 当 n= 1 时 固定 增 量 自 适 应 规则 的 收敛 性 。 很 明显 ? 的 具体 值 是 不 重 
要 的 ， 只 要 它 是 正 的 。n1 时 的 值 不 影响 模式 可 分 性 而 仅仅 改变 模式 向 量 。 对 于 n(n) 变 化 
的 情况 稍 后 考虑 。 

给 出 的 证 明 针 对 初始 条 件 w(0) = 0, Bit w (n)x(n)<03fn=1, 2, °°, HAA WE 
x(n) 属 于 子 集 %,。 这 样 ， 既 然 式 (3.53) 的 第 二 个 的 条 件 不 满足 ， 那 么 感知 器 不 能 正确 地 对 
向 量 x(1)，x(2)，… 进 行 分 类 。 在 常量 n(n) =1 的 情况 下 ， 我 们 可 以 利用 式 (3.55) 的 第 二 行 
写作 


wn+1) = wn) + x(n) 对 x(n) 属于 类 4， (3.56) 
给 定 初始 条 件 w(0) =0， 我 们 可 以 和 迭代 求解 这 个 关于 w(n + 1) 方程 得 到 结果 
wn +1) = x(1) + x(2) + + x(n) (3.57) 


因为 假设 类 6@， 和 @: 为 线性 可 分 的 ， 对 属于 子 集 %, 的 向 量 x(1)，x(2)，…，x(n) 的 不 等 式 
方程 w x(n) >0 存 在 一 个 解 由。 对 固定 解 mw ， 我 们 可 以 定义 一 个 正 数 a, 


一 1 了 
a= it, wo x(n) (3.58) 


因此 ， 在 式 (3.57) 两 边 同 乘 行 向 量 wi ， 得 到 
ww(+1) = wox(1) + wx(2) + + wix(n) 


所 以 ， 依 据 等 式 (3.58) 中 的 定义 ， 我 们 有 
wow(n +1) > na (3.59) 


下 面 利 用 众所周知 的 Cauchy-Schwarz 不 等 式 。 给 定 两 个 向 量 w Al win +1), Cauchy-Schwarz 


不 等 式 表 述 为 
| wo Il? wea + 1) 1? = [wwa + 1) 7 (3.60) 


这 里 站 儿 表 示 所 包含 的 变 元 向 量 的 欧 几 里 德 范 数 ， 内 积 mw(n + 1) 是 标量 。 从 式 (3.59) 得 
到 [wsw(n +1) 大 于 或 等 于 到 到 。 从 式 (3.60) 我 们 注意 到 |w il? |] w(n +1) 站 :大 于 或 等 
于 [ww(n+ 1) 1。 这 样 得 到 

| wo l? | wn +1) | > nae 


或 等 价 地 有 | w( n+ 1) |? > >T | si 2 (3.61) 
下 面 我 们 遵循 男 一 种 发 展 路 线 。 特 别 地 ， 可 以 把 式 (3.56) 改 写 为 
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wk +1) = wk) + x(k) Mk = 1,-+,n Bx(k) € &, (3.62) 
通过 对 式 (3.62) 两 边 同 取 欧 几 里 德 范 数 的 平方 ， 我 们 得 到 
| wk +1) |]? = ll wk) 7 + Il x(k) I? + 2w7(k) x(k) (3.63) 


但 是 ， 在 感知 器 对 子 集 %, 中 的 向 量 x(%) 不 能 进行 正确 分 类 的 假设 下 ,我 们 有 Ww (hk) x(k) < 
0。 因 此 从 等 式 (3.63) 中 得 到 

wk DI < ll wk) I]? + I xk) Il? 
或 等 价 地 有 | wk +1) 1? we) I? < | we) Il’, k=l, ov, n (3.64) 
E k=1, ©, n 情况 下 的 这 些 不 等 式 和 假设 初始 条 件 w(0) =0 结合 起 来 ， 得 到 不 等 式 


1 wCn + 1 |? < S} I x(k) |? < nag (3.65) 
这 里 B 是 一 个 正 数 ， 定 义 为 
B= may | x(k) |? (3.66) 


式 (3.65) 表明 权 值 向 量 w(n + 1) 的 欧 几 里 德 范 数 平方 的 增长 至 多 只 能 和 和 迭代 次 数 n 形成 线 
性 关系 。 

当 n 有 足够 大 的 值 时 ， 式 (3.65) 的 第 二 个 结果 显然 是 与 式 (3.61) 的 结果 相 矛 盾 。 实 际 
上 ， 我 们 可 以 说 n 不 能 大 于 某 个 值 nmo E n。s 使 得 式 (3.61) 和 (3.65) 等 号 都 成 立 。 这 里 ， 
nm 是 下 面 方程 的 解 : 


2 = NmaxB 
Tele = 

给 定 解 向 量 w, ME nao RIER E 
_ Bll wo Il? 
这 样 我 们 证 明了 对 所 有 的 n，n(n) = 1， 且 w(0) =0， 如 果 解 向 量 w 存在 ， 那 么 感知 器 权 值 
的 适应 过 程 最 多 在 n,, 次 迭代 后 终止 。 从 式 (3.58)，(3.66) 和 (3.67) 注 意 到 w 或 noa 的 解 并 
不 惟一 。 

我 们 现在 可 以 氢 述 感知 器 的 固定 增 量 收敛 定理 (Rosenblatt,1962 ) : 

设 训练 向 量 的 子 集 吧 ， 和 8%, 是 线性 可 分 的 ， 感 知 器 的 输入 来 自 这 两 个 子 集 。 感 知 器 在 某 
个 m 次 选 代 后 收 你 ， 收 你 是 在 如 下 意义 下 : 

wno) = wno +1) = wno +2) = … 

是 对 mo 去 mn 的 解 向 量 。 

下 面 考虑 当 如 nm) 变 化 时 ， 单 层 感知 器 自 适应 的 绝对 误差 修正 过 程 。 特 别 ， 设 n(n) 是 满 
足下 式 的 最 小 的 整数 : 


(3.67) 


max 


n(n)x"(n)x(n) >1w (n)x(n) | 
利用 这 个 过 程 我 们 发 现 如 果 第 n 次 迭代 时 的 内 积 w”(n)x(n) 存 在 符号 错误 ， 那么 第 n+1 次 
迭代 中 w (n+1)x(n) 符 号 就 会 是 正确 的 。 这 说 明 如 果 w (n)x(n) 有 符号 错误 ， 我们 可 以 通 
Wi x(n +1) =x(n) 来 改变 第 n+1 次 迭代 时 的 训练 次 序 。 换 名 话说， 每 个 模式 重复 呈现 给 
感知 器 直到 模式 正确 分 类 。 
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注意 当 w(0) 的 初始 值 不 为 零 时 ， 仅 仅 是 导致 收敛 需要 的 迭代 次 数 或 增加 或 减少 ， 这 依 
HMF w(0) 与 解 w 的 相关 程度 。 无 论 w(0) 的 值 是 多 少 ， 感 知 器 都 可 以 保证 是 收敛 的 。 

在 表 3-2 中 我 们 对 感知 器 收敛 算法 做 出 概述 (Lippmann,1987)。 在 此 表 第 三 步 计算 感知 器 
的 实际 响应 中 使 用 的 记号 sgn( ') ， 表 示 符 号 函数 (signum function) : 
+1 4v>0 


sen(v) = [+ 1 #y <0 (3.68) 
这 样 我 们 可 以 把 感知 器 的 量化 反应 y(n) 表 示 为 以 下 的 简洁 形式 : 
y(n) = sgn(w’(n)x(n)) (3.69) 


R32 感知 器 收敛 算法 概述 


变量 和 参数 : 
x(n)= m+1 维 输入 向 量 
= [+ 1,x1(n), ra(n) 5°75 %m(n)]? 
wn) = m + 1 维权 值 向 量 
= [b(n), w (n), wn),, wa(n)]T 
b(n) = 偏 置 
y(n) = 实际 响应 (量化 的 ) 
d(n) = 期 望 响应 
ne 学 习 率 参数 ,一 个 比 1 小 的 正常 数 
1. 初始 化 。 设 w(0) =0。 对 时 刻 n= 1，2，… 执 行 下 列 计算 。 
2. 激活 。 在 时 间 步 ”， 通 过 提供 连续 值 输入 向 量 x(n) 和 期 望 响应 d(n) 来 激活 感知 器 。 
3. 计算 实际 响应 。 计 算 感 知 器 的 实际 响应 : 
y(n) = sgn[w7(n)x(Cn)] 
这 里 sgl) EAS AR 
4. 权 值 向 量 的 自 适应 。 更 新 感知 器 的 权 值 向 量 : 
wn+t+1) = wn) + nd(n) - y(n)]x(n) 
这 里 
a | 1 x(n) 属于 类 %@&， 
Wi # x(n) MERE, 


5. 继续 。 时 间 步 n 增加 1， 返回 第 2 步 。 


注意 输入 向 量 x(n) 是 (m +1) x 1 向量, 它 的 第 一 个 元 素 在 整个 计算 中 国定 为 +1。 相 应 
地 ， 权 值 向 量 w(n) 是 (m +1) x1 向 量 ， 它 的 第 一 个 元 素 等 于 偏 置 b(n)。 表 3-2 中 的 另 一 个 
要 点 是 : 我 们 引入 一 个 量化 期 望 响应 d(n)， 定 义 为 
d(n) = {* 1 E x(n) 属于 类 %， (3.70) 
-1 若 x(n) RFR, 
因此 ， 权 值 向量 w(n) 的 自 适 应 是 以 误差 修正 学 习 规 则 (error-correction leaming mle) 形 式 下 的 累 
加 : 
w(n +1) = wn) + yl d(n) — y(n)]x(n) (3.71) 
这 里 ?是 学 习 率 参数 ， 差 4(n) - y(n) 扮 演 一 个 误差 信号 的 角色 。 学 习 率 参数 是 正常 数 ， 且 
0<n<1。 当 在 这 个 区 间 里 给 | 赋 一 个 值 时 ， 我 们 必须 记 住 两 个 互相 冲突 的 需求 (Lippmann， 
1987 ): 
。 过 去 输入 的 平均 值 提供 一 个 稳定 的 权 值 估计 ， 这 需要 一 个 较 小 的 
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。 相对 于 产生 输入 向 量 x 的 过 程 的 固有 分 布 的 实时 变化 ， 快 速 自 适应 需要 较 大 的 1。 
3.10 Gauss 环境 下 感知 器 与 Bayes 分 类 器 的 关系 


感知 器 与 一 类 通称 Bayes 分 类 器 的 经 典 模式 分 类 器 具有 一 定 联系 。 在 Gauss 环境 下 ， 
Bayes 分 类 需 退 化 为 一 个 线性 分 类 器 。 这 与 感知 器 采用 的 形式 是 一 样 的 。 但 是 ， 感 知 器 的 线 
性 特性 并 不 是 由 于 Gauss 假设 而 具有 的 。 这 一 节 我 们 研究 这 种 联系 ， 并 借 此 深入 研究 感知 器 
的 运行 。 我 们 首先 对 Bayes 分 类 器 作 一 个 简单 的 复习 。 


Bayes 分 类 器 


在 Bayes 分 类 器 和 Bayes 假设 检验 过 程 中 ， 我 们 最 小 化 平均 风险 ( 记 为 久 )。 对 两 类 问题 
( 记 为 类 %, AC, ) Van Trees( 1968) 定 义 的 平均 风险 为 : 
R = enp |g fsx | €,)dx + cp fx(x | @, ) dx 
(3.72) 
+ capi], fx(x | €,)dx + cp y Fe Cx | €,) dx 
这 里 各 项 的 定义 如 下 : 
p; = 观察 向 量 x( 表 示 随 机 向 量 X 的 实现 值 ) 取 自 子 空间 %, 的 先 验 概 率 ， 这 里 ;=1，2 且 
pitp2=1o 
cy = MAC, 是 真实 的 类 ( 即 观察 向 量 x 是 取 自 子 空间 %,) 时 决定 支持 由 子 空间 %, 代表 的 
RE, 的 代价 ，(i,j ) = 1，2。 
fx (xl€,) = 随机 向 量 久 的 条 件 概率 密度 函数 ， 假设 观察 向 量 x 取 自 子 空间 %,，i = 1，2。 
式 (3.72) 右 边 的 头 两 项 表示 正确 决策 ( 即 正确 分 类 )， 从 而 最 后 两 部 分 代表 不 正确 决策 ( 即 错 
误 分 类 )。 每 个 决策 通过 两 个 因子 乘积 加 权 : 作出 决策 的 代价 和 发 生 的 相对 频率 ( 即 先 验 概 
率 )。 
目的 在 于 确定 一 个 最 小 化 平均 风险 的 策略 。 因 为 我 们 需要 作出 这 样 的 决策 ， 在 全 部 观察 
空间 % 中 每 个 观察 向 量 x 必须 被 设 定 或 者 属于 &%，, 或 者 属于 %, 。 因 此 
X = % +%, (3.73) 
相应 地 ， 我 们 可 以 把 式 (3.72) 改 写 为 等 价 的 形式 


R= cup we Fa | €,) dx + CPi) yg fx(x | €,)dx 


(3.74) 
+ €21 Pi we /xX | ©, )dx + cnps |, fx(x | %,) dx 
这 里 CI < ey A Cn < Cpo 现在 我 们 注意 到 下 述 事实 : 
[feel dx = f fr(x @)dx = 1 (3.75) 


因此 ， 式 (3.74) 变 为 
R = capi + czpa + I, [prey - en) fx(x 1%) - pilen ~ en f(x | €,) ]dx (3.76) 
式 (3.76) 右 边 的 头 两 项 代表 一 个 固定 代价 。 因 为 需要 最 小 化 平均 风险 钢 ， 我 们 从 式 (3.76) 得 
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到 以 下 最 优 分 类 的 策略 : 


1. 所 有 使 被 积 函 数 ( 即 方 括号 里 的 表达 式 ) 为 负 的 观察 向 量 x 的 值 都 归于 子 空间 %, ( 即 类 


4 ) ， 因 为 此 时 积分 对 风险 久 有 一 个 负 的 贡献 。 


2. 所 有 使 被 积 函 数 为 正 的 观察 向 量 x 的 值 都 必须 从 子 空间 %, 中 排除 ( 即 分 配给 类 %&, )， 


因为 此 时 积分 对 风险 统 有 一 个 正 的 贡献 。 


3. 使 被 积 函数 为 零 的 x 的 值 对 平均 风险 灸 没有 影响 ， 因 此 可 以 任意 分 配 。 我 们 假设 这 些 


点 分 配给 子 空间 %,( 即 类 %, ) 。 


在 这 个 基础 上 ， 我 们 写 出 Bayes 分 类 器 公式 如 下 ， 


假如 条 件 
pier 一 Cn) fx (x | €,) > p2(en 一 Cx ) fx (x | €,) 
满足 ， 把 观察 向 量 X 分 配给 予 空间 % (PRE). FIE x PHA, (EAE) 


为 了 简化 起 见 ， 定 义 





x <， 
A(x) = fax | zy (3.77) 
e= Beene (3.78) 


量 A(x) 是 两 个 条 件 概 率 密度 函数 的 比 ， 被 称 为 似 然 比 (likelihood ratio)。 量 上 称 为 检验 的 


Pa. TER A(z) 和 # 都 是 恒 正 的 。 根 据 这 两 个 量 ， 我 们 可 以 把 Bayes 分 类 重新 表述 为 ， 


假如 对 一 个 观察 向 量 X， 似 然 比 A(x) 比 阅 值 大， 就 把 Xx 分 配给 类 &) ， 反 之 ， 分 配给 类 (6,，。 


图 3- 10a 是 一 个 描绘 Bayes 分 类 器 的 模块 图 。 此 模块 图 的 要 点 是 两 方面 的 : 
BA(x) > & Bx H¥E, 


反之 , FRx e. 





若 logA(x) > logt, Bx ABE, 


反之 , HE xH e. 





logé 
b) 


图 3-10 Bayes 分 类 器 的 两 个 等 价 模型 
a) 似 然 比 检验 b) 对 数 似 然 比 检验 
1. 进行 Bayes 分 类 器 设计 的 数据 处 理 被 完全 限制 在 似 然 比 A(x) 的 计算 中 。 
2. 此 计算 与 分 配给 先 验 概率 的 值 和 决策 过 程 中 的 代价 是 完全 无 关 的 。 这 两 个 量 仅仅 影 


Wie] BR EL. 
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从 计算 的 观点 ， 我 们 发 现 使 用 似 然 比 的 对 数 比 使 用 似 然 比 自身 方便 得 多 。 这 样 做 有 两 个 
理由 。 首 先 ， 对 数 是 单调 函数 。 其 次 ， 似 然 比 ACx) AUB EREE, FA, Bayes 分 类 器 
可 以 以 如 图 3-10b 所 示 的 等 价 形式 实现 。 由 于 明显 的 原因 ， 第 二 个 图 中 嵌入 的 检验 被 称 为 对 
数 似 然 比 检 验 。 


Gauss 分 布下 的 Bayes 分 类 器 


现在 考虑 一 个 在 Gauss 分 布下 两 类 问题 的 特殊 情形 。 随 机 向 量 义 的 均值 依赖 于 义 是 属于 
KE, 还 是 €,， 但 义 的 协 方差 阵 对 两 类 都 是 一 样 的 。 也 就 是 说 : 
KE, : E[X] =H 
E[(X~p,)(X-p)7]=C 
RE: ELX] =p, 
E((X-p,)(X-p,)™]=C 
协 方差 矩阵 C 是 非 对 角 的 ， 这 意味 着 取 自 类 &， 和 类 6, 的 样本 是 相关 的 。 假 设 C 是 非 奇 
FY, RE Hwee Co FETE. 
在 这 个 背景 下 我 们 可 以 把 X 的 条 件 概率 密度 函数 表示 如 下 


1 1 Tl . 
x(x 1 %,) = aaae (x Hi) C (x -p,)) i = 1,2 (3.79) 


这 里 m 是 观察 向 量 x 的 维 数 。 
进一步 假设 
1. IARC, ANG, 的 概率 相同 : 
Pi = Pp2 = 4 (3.80) 
2. 错误 分 类 造成 同样 的 代价 ， 正 确 分 类 的 代价 为 零 : 
Cy = Cy 和 Cy = Cy, = 0 (3.81) 


我 们 现在 有 了 对 两 类 问题 设计 Bayes 分 类 器 的 信息 。 上 有 具体 地 ， 将 式 (3.79) 代 入 (3.77) 并 
取 自然 对 数 ， 我 们 得 到 (简化 后 ): 


logA(x) = - F(x - m) C(x- py) + F(x - m) C(x- m) 


(3.82) 
= (ph = oe)? Cx + (WIC - Cp) 
把 式 (3.80) 和 式 (3.81) 代 入 式 (3.78) 并 取 自 然 对 数 ， 我 们 得 到 
logé = 0 (3.83) 
式 (3.82) 和 式 (3.83) 表 明 当 前 问题 的 Bayes 分 类 器 是 线性 分 类 器 ， 如 关系 式 
y= wx (3.84) 
所 示 ， 这 里 
y = logA(x) (3.85) 
w= C'(m - m) (3.86) 


b = FC - BIC) (3.87) 
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更 进一步 ， 分 类 器 由 一 个 权 值 向 量 w 和 偏 置 的 构成 的 线性 组 合 器 构成 ， 如 图 3- 11 所 示 。 


在 式 (3.84) 的 基础 上 ， 我 们 可 以 把 对 两 类 问题 的 
对 数 似 然 比 检验 描述 如 下 : 

假如 线性 组 合 器 (包括 偏 置 5 ) 的 输出 是 正 的 ， 把 
观察 向 量 x DRAKE. GM, EDAH. 


这 里 描述 的 Gauss 环境 下 的 Bayes 分 类 器 的 运行 与 感 





知 器 是 类 似 的 ,因为 它们 都 是 线性 分 类 器 ; 请 见 式 
(3.71) 和 (3.84)。 但 是 ,在 它们 之 间 还 是 有 一 些 细微 而 图 3-11 Gauss 分 类 器 的 信号 流 图 
且 重 要 的 不 同 ， 这 必须 被 仔细 检查 (Lippmann ,1987): 


3.11 


感知 器 运行 的 前 提 是 待 分 模式 是 线性 可 分 的 。 导 出 Bayes 分 类 中 假设 两 个 Causs pen 
的 模式 当然 是 互相 重 秋 的 ， 因 此 它们 不 是 可 分 的 。 重 赫 的 程度 是 由 均值 向 量 p 和 
m 以 及 协 方差 矩阵 C 决定 的 。 重 要 的 性 质 如 图 3-12 所 示 ， 这 是 对 一 个 随机 标量 的 
特殊 情况 ( 即 维 数 m = 1)。 当 输入 如 图 所 示 是 不 可 分 且 其 分 布 是 重合 的 时 候 ， 感 知 
器 收敛 算法 出 现 一 个 问题 ， 因 为 两 类 间 的 决策 边界 可 能 会 持续 振荡 。 

Bayes 分 类 最 小 化 分 类 误差 概率 。 这 个 最 小 化 是 与 Gauss 分 布下 两 类 之 间 的 重合 无 
关 。 例 如 ， 在 图 3-12 中 的 特例 中 ，Bayes 分 类 使 决定 边界 总 是 位 于 Gauss 分 布下 两 类 
€, FIC, 的 交叉 点 上 。 

感知 器 收敛 算法 是 非 参数 的 ， 这 指 的 是 它 没有 关于 固有 分 布 形 式 的 假设 。 它 的 运行 
是 集中 于 发 生 在 分 布 重要 地 方 的 误差 。 当 输入 由 非 线 性 物理 机 制 产生 同时 它们 的 分 
布 是 严重 偏离 而 且 非 Gauss 分 布 的 时 候 , 算法 将 工作 得 很 好 。 相 反 ，Bayes 分 类 器 是 
参数 化 的 ; 它 的 导出 是 建 kan 

立 在 Gauss 分 布 的 假设 上 | 

的 ， 这 可 能 会 限制 它 的 适 
用 范围 。 
感知 器 收敛 算法 是 自 适 应 
的 且 实 现 简单 ; 它 的 存储 
需求 仅 限 于 权 值 集合 和 偏 
置 。 另 一 方面 ，Bayes 分 类 
器 设计 是 固定 的 ， 可 以 使 
它 变 成 自 适应 的 ， 但 代价 
是 增加 存储 量 和 更 高 计算 图 3-12 两 个 重 全 的 一 维 Gauss 分 布 
复杂 性 。 


小 结 和 讨论 





感知 器 和 使 用 LMS 算法 的 自 适应 滤波 器 是 本 质 上 相关 的 ， 正 如 被 它们 的 权 值 更 新 所 表明 
的 那样 。 实 际 上 ， 它 们 代表 基于 误差 修正 学 习 的 单 层 感知 器 的 不 同 实现 。 术 语 “ 单 层 " 用 在 这 
里 是 为 了 表示 两 者 的 计算 层 都 是 由 单个 神经 元 组 成 的 一 一 因此 本 章 使 用 这 个 标题 。 但 是 ， 感 
知 器 和 LMS 算法 在 一 些 基本 方面 有 区 别 : 
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。 LMS 算法 使 用 一 个 线性 神经 元 ， 而 感知 器 用 神经 元 的 McCulloch-Pitts 形式 模型 。 
。 感知 器 的 学 习 过 程 执行 有 限 步 选 代 后 停止 。 相 反 ， 在 LMS 算法 中 发 生 持 续 学 习 ， 这 
是 指 当 信号 处 理 不 停止 时 学 习 就 不 停止 。 

一 个 硬 限 幅 器 构成 McCulloch-Pitts 神经 元 的 非 线 性 元 素 。 很 容易 提出 这 样 一 个 问题 : 如 
果 用 一 个 sigmoid 型 非 线性 代替 硬 限 幅 器 ， 感 知 器 会 不 会 有 更 好 的 表现 ? 结果 是 不 管 我 们 使 
用 硬 限 幅 还 是 软 限 幅 作为 神经 元 模型 中 非 线性 源 ， 感 知 器 的 状态 稳定 的 决策 特征 基本 不 变 
(Shynk , 1990; Shynk and Bershad,1991) 。 因 此 我 们 可 以 正式 说 只 要 限制 为 由 线性 组 合 器 和 随后 
一 个 非 线性 元 素 组 成 的 神经 元 模型 ， 不 管 非 线 性 使 用 什么 形式 ， 一 个 单 层 感知 器 都 只 能 在 线 
性 可 分 模式 上 进行 模式 分 类 。 

我 们 用 一 个 历史 注释 结束 单 层 感知 器 的 讨论 。 感 知 器 和 LMS 算法 大 约 在 20 世纪 50 年 代 
晚期 同时 出 现 。LMS 算法 真正 经 受 住 了 时 间 的 考验 。 实 际 上 ， 它 把 自己 作为 一 个 自 适 应 信和 号 
处 理 的 主要 工具 (workhorse) ， 因 为 它 实 现 起 来 较 简 便 ， 应 用 效率 也 高 。Rosenblatt 的 感知 器 的 
重要 性 很 大 程度 是 在 历史 方面 。 

对 于 Rosenblatt 感知 器 的 第 一 个 真正 的 批评 是 由 Minsky and Selfridge(1961) 提 出 的 。Minsky 
和 Selfridge 指出 ，Rosenblatt 定义 的 感知 器 不 管 是 用 那 种 形式 都 不 能 推广 到 二 进 制 数 的 奇偶 校 
验 对 的 情况 ， 更 不 用 说 完成 一 般 的 抽象 。Rosenblatt 感知 器 的 计算 局 限 后 来 又 在 Minsky 和 
Papert 的 名 著 《感知 器 》 中 得 到 了 严格 的 数学 证 明 (1969,1988)。 在 给 出 一 些 出 色 的 和 非常 详细 
的 对 感知 器 的 数学 分 析 以 后 ， Minsky 和 Papert 证 明 ， 建 立 在 局 部 学 习 例子 基础 上 的 Rosenblatt 
感知 器 从 本 质 上 无 法 进行 全 局 的 泛 化 。 在 他 们 著作 的 最 后 一 章 ，Minsky 和 Papert 推测 他 们 发 
现 的 Rosenblatt 感知 器 的 局 限 性 对 它 的 一 种 很 特殊 的 变形 一 一 多 层 神经 网 络 也 是 对 的 。 下 文 
摘录 于 他 们 著作 (1969) 的 13.24: 

尽管 (甚至 由 于 1) 它 严重 的 局 限 ， 感 知 器 展示 了 自身 研究 价值 。 它 有 很 多 吸引 注意 的 优点 : 它 的 线性 
性 ， 它 迷人 的 学 习 法 则 ， 它 清楚 的 作为 一 类 并 行 计 算 范 例 的 简单 性 。 没 有 任何 理由 假定 这 些 优 点 能 带 到 多 
层 感知 器 中 。 我 们 直觉 判断 推广 到 多 层 系统 也 不 会 有 好 结果 ， 但 是 对 于 这 一 点 我 们 认为 证 明 ( 或 否定 ) 它 是 
一 个 很 重要 的 需要 研究 的 问题 。 

这 个 结论 在 很 大 程度 上 导致 了 一 个 一 直 持 续 到 20 世纪 80 年 代 中 期 的 对 不 仅 是 感知 器 而 且 是 
一 般 神经 网 络 计算 能 力 的 严重 怀疑 。 

但 历史 已 经 证 明 Minsky 和 Papert 作出 的 推测 似乎 是 不 太公 正 的 ， 因 为 我 们 现在 已 经 有 很 
多 神经 网 络 的 高 级 形式 ， 它 们 的 计算 能 力 比 Rosenblatt 感知 器 强 得 多 。 例 如 ， 第 4 章 讨 论 的 
反 向 传播 算法 训练 的 多 层 感 知 器 ， 第 5 章 讨 论 的 径 向 基 函 数 网 络 ， 第 6 章 讨论 的 支持 向 量 
机 ， 都 以 它们 各 自 的 方法 克服 了 单 层 感 知 器 的 计算 局 限 性 。 


注释 和 参考 文献 


[1] Rosenblatt 预想 的 原始 感知 器 模型 的 网 络 组 织 (1962) 有 三 种 类 型 的 单元 : 感知 单元 ， 联 
想 单元 和 响应 单元 。 感 知 单元 和 联想 单元 之 间 的 连接 有 固定 的 权 值 ， 而 联想 单元 和 响 
应 单元 之 间 的 连接 具有 变化 的 权 值 。 联 想 单元 扮演 的 是 设计 成 一 个 从 环境 输入 中 抽取 
模型 的 预 处 理 器 的 角色 。 就 仅 关心 可 变 权 值 而 论 ，Rosenblatt 的 原始 感知 器 的 运行 与 只 
有 一 个 响应 单元 ( 即 单个 神经 元 ) 的 特殊 情况 是 基本 一 致 的 。 

[2] 对 一 个 向 量 的 微分 
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设 /(w) 表 示 参 数 向 量 w 的 一 个 实 值 函 数 。/(w) 对 w 的 导数 定义 为 如 下 向 量 : 
af (2E, 2, ay 


ow Iw Iw,’ 
这 里 m 是 向 量 w 的 维 数 。 下 面 两 种 情形 是 很 有 用 的 : 
情形 1 函数 f(w) 定 义 为 内 积 : 


f(w) = x’we= DY a 





因此 ， 
FE ,im 
或 等 价 地 ， 以 矩阵 形式 表示 : 
so =x (1) 


情形 2 函数 [(w) 定 义 为 二 次 型 : 
fw) = w Rw = 5 S wro 


i=l j=l 


这 里 rj fem x m EE R 的 第 ij SICH © 因此 ， 
a m 


yj, = 1,2,,m 
或 等 价 地 ， 以 矩阵 形式 表示 
of _ Rw | (2) 


ow 

式 (1) 和 (2) 为 向 量 的 实 值 函数 的 微分 提供 了 两 个 有 用 的 规则 。 
正定 矩阵 
一 个 严 x 严 和 拖 阵 及 被 称 为 是 非 负 定 的， 如 果 它 满足 条 件 

a’Ra > 0 对 任意 a € R” 
假如 条 件 中 的 不 等 式 满足 ， 和 矩阵 R 被 称 为 是 正定 的 。 
正定 矩阵 R 的 一 个 很 重要 的 性 质 是 它 是 非 奇异 的 ， 因 此 道 和 矩阵 R FE. 
正定 矩阵 R 的 另 一 个 重要 的 性 质 是 它 的 特征 值 或 特征 方程 det(R) = 0 的 根 全 部 为 正 。 
鲁 棒 性 
H” 准则 是 由 Zames(1981) 定 义 的 ， 并 在 Zames and Francis(1983) 进 一 步 发 展 。Doyle et al. 
(1989), Green and Limebeer( 1995) Hassibi et al.(1998) 也 对 这 个 准则 进行 了 讨论 。 
为 了 克服 LMS 算法 的 局 限 性 ， 即 收敛 速度 较 慢 和 对 相关 和 矩阵 R, 的 条 件数 变化 反应 过 
于 灵敏 ， 我 们 可 以 使 用 递归 最 小 二 乘 (reeursive least-squares, RLS) 算 法 ， 它 利用 我 们 在 
3.4 节 中 描述 的 线性 最 小 二 乘 滤波 器 进行 递归 实现 。RILS 算法 是 Kalman 滤波 器 的 一 个 
特例 ， 后 者 被 认为 是 非 稳定 环境 下 最 优 的 线性 滤波 器 。 更 重要 的 是 ，Kalman 滤波 器 计 
算 利 用 所 有 过 去 扩展 的 数据 并 包含 进行 计算 时 的 时 间 常 数 。 关 于 RLS 算 法 以 及 RS 算 
法 和 Kalman 滤波 器 的 关系 的 更 多 细节 ， 参 见 Haykin(1996)。Kalman 滤波 器 将 在 第 15 章 
中 讨论 。 








习题 
无 约束 最 优化 
3.1 研究 包含 一 个 权 值 w 的 最 速 下 降 法 ， 考 虑 下 列 代价 函数 : 
E(w) = ze ~— raw + drw 


MH o, raMr, 都 是 常数 。 
3.2 考虑 代价 函数 


€(w) = +o — riwt+ Fw Rw 


这 里 o BRM, A 
[ | 1 0-8182] 
” 1!0.3544 d’ * ~ Lo.gig2 1 
(a) 求 使 68(w) 达 到 最 小 的 最 优 值 w” 。 
(b) 对 下 列 两 个 学 习 率 参数 用 最 速 下 降 法 计算 w: 
(i)q=0.3 
Gi)y= 1.0 
对 每 一 种 情况 ， 画 出 权 值 向 量 w(n) 在 W- 平 面 演 化 产生 的 轨迹 。 
提示 : (b) 部 分 中 情形 ( 认 和 情形 (i) 的 轨迹 应 与 图 3-2 中 的 图 形 对 应 。 
3.3 考虑 式 (3.24) 的 代价 函数 ， 它 作为 式 (3.17) 中 定义 的 误差 平方 的 和 的 修正 形式 ， 
HEHH Gauss-Newton 方法 对 式 (3.24) 中 的 应 用 是 产生 式 (3.23) 描 述 的 权 值 更 新 。 
LMS 算法 
3.4 LMS 算法 中 输入 向 量 x(n) AAEM R 定义 为 
R = 1 °°) 
0.5 1 
定义 LMS 算法 在 均 方 收敛 下 的 学 习 率 参数 的 取 值 范围 。 
3.5 正规 化 LMS 算法 通过 以 下 对 权 值 向 量 的 递归 形式 表示 : 


Win +1) = Wn)+ Tape) 


这 里 站 是 正常 数 且 || x(n) | 是 输入 向 量 x(n) 的 欧 几 里 德 范 数 。 误 差 e(n) 定 义 为 
eln) = d(n) —- W"(n)x(n) 
这 里 d(n) 是 期 望 响应 。 为 了 使 正规 化 LMS 算法 均 方 收敛 , 证明 
0<Ņ<2 

3.6 LMS SIAR) MARAE, WE 2-16 所 示 。 建 立 系统 运行 的 方程 ， 假 设 
神经 网 络 使 用 的 是 单个 神经 元 。 

3.7 考虑 一 个 由 样本 x(n 一 1)，x(n 一 2),…，x(n--m) 组 成 的 输入 向 量 的 线性 预测 
器 ， 这 里 m 是 预测 阶 数 。 要 求 利 用 LMS 算法 得 到 输入 样本 x(n) 的 预测 %(n)。 建 立 用 来 计 
算 预 测 器 的 抽 头 权 值 wi ，w,，…，w 的 递归 关系 式 。 

3.8 作为 误差 平方 和 副本 的 总 体 均值 被 看 作 代价 函数 ， 它 是 下 面 误差 信号 的 均 方 值 : 
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J(w) = FELe(n)] = Bl (d(n) - x"(n)w)?] 
(a) 假 设 输入 向 量 x(n) 和 期 望 响应 4(n) 来 自 一 个 稳定 环境 ,证明 
J(w) = 一 了 是 十 Sw Rw 
这 里 o, = Eld’(n)] 
ru = E[x(n)d(n)] 
R, = E[x(n)x"(n)] 
(b) 对 这 个 代价 函数 ， 证 明 梯度 向 量 和 J(w) 的 Hessian 矩阵 分 别 为 如 下 形式 ; 
g=- re + Rw 
H= R, 

(c) 在 LMS/Newton 算法 中 梯度 向 量 g 可 以 被 它 的 瞬时 值 蔡 代 (Widrow and Stearns, 1985 ) 。 

证 明 采 用 学 习 率 参数 | 时 这 种 算法 可 以 表示 如 下 : 
W(n +1) = (n) +nR x(n)(d(n) -x (n)w(n)) 

相关 和 矩阵 R 的 逆 假 设 为 正定 的 ， 是 事先 计算 好 的 。 

3.9 在 此 题 中 我 们 重新 访问 在 2.11 节 中 讨论 的 相关 乞 阵 记忆 。 这 个 记忆 的 一 个 缺点 是 
当 为 它 提供 一 个 关键 模式 x; 时 ， 记 忆 体 产生 的 实际 响应 y 不 能 足够 (在 欧 几 里 德 的 意义 下 ) 
靠近 期 望 响应 (记忆 模式 )y 以 便 记 忆 可 以 很 好 联想 。 这 个 缺点 是 因为 Hebb 学 习 固 有 的 ， 它 
没有 利用 从 输出 到 输入 的 反馈 。 为 了 补救 这 个 缺点 ， 我 们 可 以 在 记忆 设计 中 耦合 一 个 误差 修 
正 机 制 ， 迫 使 它 恰当 联想 (Anderson 1983 ) 

设 M(m ) 为 误差 修正 学 习 过 程 第 “次 选 代 学 习 的 记忆 抢 阵 。 记 忆 和 矩阵 Mna) h KE 
表示 的 信息 如 下 : 

X, > Jis k = 1,2,.…,g 
(a) 采 用 LMS 算法 解决 这 个 问题 ,证 明 记忆 甜 阵 的 更 新 值 定义 为 
M(n +1) = M(n) + aly, -M(n)x, lx 

这 里 7 是 学 习 率 参数 。 

(b) 对 自 联 想 ，y = x。 对 这 个 特例 ,证 明 当 和 迭代 次 数 n 趋 于 无 穷 时 ， 记 忆 自 联想 得 很 
好 ， 即 证 明 l 

M(®)x,=x,,  k=1,2,,q 

(c) 在 (b) 中 的 结果 可 以 被 看 作 一 个 特征 值 问题 。 在 这 个 关系 下 ，x 表示 M( % ) 的 一 个 
特征 向 量 。 求 M( % ) 的 特征 值 。 

3.10 此 题 中 我 们 研究 偏 置 对 一 个 相关 矩阵 条 件数 的 影响 以 及 LMS 算法 的 性 能 。 

考虑 一 个 随机 向 量 X, CHIEN 


C- Di c=] 


均值 为 p= [| 
(a) 计 算 协 方差 矩阵 C 的 条 件数 。 
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(b) i} RAH KE R 的 条 件数 。 
评价 偏 置 u 对 LMS 算法 性 能 的 影响 。 
Rosenblatt 的 感知 器 
3.11 此 题 中 ， 我 们 考虑 另 一 种 导出 Rosenblatt 感知 器 更 新 公式 的 方法 。 定 义 感知 器 准 
则 函数 (Duda and Hart, 1973) 
J,(w) = (- w’x) 


xE Ri) 
这 里 &%(w) 表 示 根 据 权 值 向 量 w 的 选择 错误 分 类 的 样本 集 。 注 意 ， 如 果 没 有 错误 分 类 样本 ， 
几 (w) 定 义 为 零 ， 且 假如 w x<0 输 出 是 错误 分 类 的 。 
(a) 几 何 上 证 明 J,(w) 是 与 错误 分 类 样本 到 决策 边界 的 欧 几 里 德 距离 的 和 成 比例 的 。 
(b) 求 有 (w) 对 权 值 向 量 w 的 梯度 。 
(c) 利 用 (b) 中 得 到 的 结果 ， 证 明 感 知 器 的 权 值 更 新 是 
wn +1) = wn)+ nn) 5 x 


xC¥ (w(n)) 
这 里 %(w(z)) 表 示 用 权 值 向 量 w(m) 错 误 分 类 的 样本 集 ， 且 mn) 是 学 习 率 参数 。 证 明 此 结果 
对 单 样本 修正 的 情形 与 式 (3.54) 和 (3.55) 描 述 的 情形 是 基本 一 致 的 。 
3.12 证 明 总 结 感知 器 收敛 算法 的 式 (3.68) 至 (3.71) 是 与 式 (3.54) 和 (3.55) 一 致 的 。 
3.13 考虑 两 个 一 维 Gauss THRE, 和 %, ， 它 们 的 方差 均 为 1。 它 们 的 均值 为 
m =- 10 
fy = + 10 
这 两 个 类 本 质 上 是 线性 可 分 的 。 设 计 一 个 分 类 器 来 分 离 这 两 个 类 。 
3.14 假设 图 3-6 中 的 信号 流 图 的 硬 限 幅 器 被 如 下 sigmoid 非 线性 替代 ; 


L 


gv) = tanh( z) 
这 里 v 是 诱导 局 部 域 。 感 知 器 的 分 类 决策 定义 如 下 : 
如 果 输 出 y > 6 观察 向 量 x 属 于 类 %,， 这 里 9 是 阅 值 ， 反之，x 属于 %,。 
3.15 (〈a) 感 知 器 可 以 用 来 执行 很 多 逻辑 函数 。 证 明 它 对 二 进 制 逻辑 函数 与 (AND)、 或 
(OR) 和 非 (COMPLEMENT) 的 实现 。 
(b) 感 知 器 的 一 个 基本 局 限 是 不 能 执行 异 或 (XOR) 函 数 。 解 释 造成 这 个 局 限 的 原因 。 
3.16 式 (3.86) 和 (3.87) 定 义 Bayes 分 类 在 Gauss 环境 下 的 权 值 向 量 和 偏 置 。 当 协 方 差 矩 
阵 C 由 
C = cI . 155 


定义 时 ， 求 此 分 类 器 的 构成 ， 这 里 c 是 常数 。 





第 4 章 ”多 层 感 器 


4.1 简介 


在 这 一 章 我 们 学 习 多 层 前 馈 网 络 ， 它 为 神经 网 络 的 重要 一 类 。 这 种 网 络 典 型 地 由 三 部 分 
组 成 : 一 组 感知 单元 ( 源 节点 ) 组 成 输入 层 ， 一 层 或 多 层 计算 节点 的 隐藏 屋 ， 还 有 一 层 计算 节 
点 的 输出 层 。 输 入 信号 在 层 层 递 进 基础 上 前 向 传播 通过 网 络 。 这 些 神 经 网 络 通常 被 称 为 多 层 
感知 器 (multilayer perceptrons,MLPs) ， 它 代表 第 3 章 考 虑 的 单 层 感知 器 的 推广 。 

在 监督 学 习 的 方式 下 使 用 通称 为 误差 反 向 传播 算法 这 种 非常 普遍 的 算法 训练 多 层 感知 
器 ， 它 们 已 经 成 功 应 用 于 不 同 的 复杂 而 困难 的 问题 。 误 差 反 向 传播 算法 是 基于 误差 修正 学 习 
规则 的 。 因 此 , 它 可 以 被 看 成 是 同样 普遍 使 用 的 自 适 应 滤波 算法 的 推广 : 在 第 3 章 描 述 的 用 

于 单个 神经 元 情形 常用 的 最 小 均值 平方 (LMS) 算 法 。 

BAL, 误差 反 向 传播 学 习 由 两 次 经 过 网 络 不 同 层 的 通过 组 成 : 一 次 前 向 通过 和 一 次 反 
向 通过 。 在 前 向 通过 中 ， 一 个 活动 模式 (输入 向 量 ) 作 用 于 网 络 感知 节点 ， 它 的 影响 经 过 网 络 
一 层 接 一 层 地 传播 。 最 后 ， 产 生 一 个 输出 作为 网 络 的 实际 响应 。 在 前 向 通过 中 ， 网 络 的 突 触 
权 值 全 为 固定 的 。 另 一 方面 ， 在 反 向 通过 中 ， 突 触 权 值 全 部 根据 误差 修正 规则 来 调整 。 特 别 
是 从 目标 响应 减 去 网 络 的 实际 响应 而 产生 误差 信号 。 这 个 误差 信号 反 向 传播 经 过 网 络 ， 与 突 
触 连接 方向 相反 一 一 因此 叫 “ 误 差 反 向 传播 ”"。 突 触 权 值 被 调整 使 得 网 络 的 实际 响应 从 统计 意 
义 上 接近 目标 响应 。 误 差 反 向 传播 算法 在 文献 中 称 为 反 向 传播 算法 (back-propagation 
algorithm) ， 或 是 简单 称 为 反 向 传播 (back-prop)。 今 后 我 们 把 它 称 为 反 向 传播 普法 。 由 算法 执 
行 的 学 习 过 程 被 称 之 为 反 向 传播 学 习 。 

多 层 感知 器 有 三 个 突出 的 特点 : 

1. 网 络 中 的 每 个 神经 元 模型 包括 一 个 非 线性 激活 函数 。 在 这 里 要 强调 的 非常 重要 一 点 
是 ， 与 Rosenblatt 感知 器 使 用 的 硬 限 幅 函 数 相反 ， 非 线性 是 光滑 的 ( 即 处 处 可 微 )。 满 足 非 线 
性 要 求 的 一 个 普遍 应 用 形式 是 由 logistic 函数 

1 
~ 1+ exp(~ y) 
定义 的 sigmoid 非 线性 "1 ， 其 中 v 是 神经 元 7 的 诱导 局 部 域 ( 即 所 有 突 触 输入 的 加 权 和 减 去 偏 
置 )，y 是 神经 元 7 的 输出 。 非 线性 的 出 现 是 很 重要 的 ， 否 则 网 络 的 输入 输出 关系 会 被 归结 
为 单 层 感知 器 所 具有 。 而 且 ，logistic 函数 的 使 用 是 基于 生物 学 上 考虑 ， 因 为 它 想 说 明 真 正 神 
经 元 的 反 撩 期 (refra ctory) 阶 段 。 

2. 网 络 包括 一 层 或 多 层 隐 藏 神 经 元 ， 它 们 不 是 网 络 输入 输出 的 部 分 。 这 些 隐藏 层 神经 
元 逐步 从 输入 模式 (向 量 ) 中 提取 更 多 的 有 用 特征 ， 可 以 使 网 络 学 习 复杂 的 任务 。 

3. 网 络 展示 出 高 度 的 连接 性 ， 它 由 网 络 突 触 决定 。 网 络 连接 的 改变 需要 突 触 连接 数量 
或 其 权 值 的 改变 。 

正 是 由 上 述 特 性 以 及 通过 训练 从 经 验 中 学 习 的 能 力 相 结合 使 得 多 层 感知 器 具有 它 的 计算 
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能 力 。 然 而 ， 同 样 这 些 特性 导致 现 阶段 关于 网 络 行为 的 知识 的 缺乏 。 首 先 ， 由 于 非 线性 分 布 
式 的 存在 和 网 络 的 高 度 连接 性 使 得 多 层 感知 器 的 理论 分 析 难 于 进行 。 第 二 ， 隐 藏 层 的 使 用 使 
得 学 习 过 程 变 得 更 不 可 想像 。 就 间接 的 意义 而 言 ， 学 习 过 程 必须 决定 输入 模式 的 哪些 特征 应 
该 由 隐藏 层 神经 元 表示 出 来 。 学 习 过 程 因此 变 得 更 困难 了 ， 因 为 不 得 不 在 大 得 多 的 可 能 函数 
空间 中 搜索 ， 同 时 不 得 不 在 输入 模式 的 不 同 表示 中 进行 选择 (Hinton ,1989)。 

“ 反 向 传播 "这 个 词 的 使 用 出 现在 1985 年 后 ， 而 它 的 广泛 使 用 是 在 《 Parallel Distributed Processing) 
(Rumelhart and McClelland,1986) 这 本 书 出 版 以 后 。 关 于 反 向 传播 算法 的 历史 注释 ， 请 看 1.9 节 。 

反问 传播 算法 的 发 展 是 神经 网 络 发 展 史 上 的 一 个 里 程 碑 ， 因 为 它 为 训练 多 层 感 知 器 提供 
了 一 个 有 效 的 计算 方法 。 虽 然 我 们 不 能 说 反 向 传播 算法 为 所 有 待 解 决 的 问题 都 提供 了 最 优 
解 ， 但 是 它 使 多 层 机 器 的 学 习 前 景 不 再 和 Minsky 和 Papert 在 其 1969 年 所 着 的 书 中 所 暗示 的 
那样 悲观 。 


本 章 的 组 织 


在 本 章 中 ， 我 们 学 习 多 层 感 知 器 的 基本 知识 以 及 反 疝 传播 学 习 。 本 章 有 七 个 部 分 。 第 一 
部 分 从 4.2 节 到 4.6 节 ， 讨 论 与 反 向 传播 学 习 有 关 的 问题 。 在 4.2 节 为 引出 反 向 传播 算法 作 
一 些 初 步 的 铺垫 。 在 4.3 节 用 微分 的 链 式 规则 详细 导出 该 算法 ; 在 给 出 的 推导 中 采用 传统 的 
方法 。 在 4.4 节 对 算法 提出 一 个 概述 。 在 4.5 节 通 过 解决 XOR 问题 这 个 例子 说 明 如 何 使 用 反 
向 传播 算法 ，XOR 问题 是 一 个 有 趣 的 问题 ， 但 用 单 层 感知 器 是 无 法 解决 的 。 在 4.6 节 , 为 了 
反 向 传播 算法 实现 得 更 好 我 们 给 出 一 些 启 发 式 方法 或 实际 的 指导 方针 。 

第 二 部 分 从 4.7 节 到 4.9 节 ， 讨论 多 层 感 知 器 在 模式 识别 中 的 用 途 。 在 4.7 节 介 绍 使 用 
多 层 感 知 器 解决 统计 模式 识别 问题 的 规则 。 在 4.8 节 用 一 个 计算 机 实验 作为 实例 阑 述 反 向 传 
播 学 习 应 用 于 区 分 具有 二 维 重合 Gauss 分 布 的 两 类 情况 。 在 4.9 节 讨 论 隐 藏 层 神经 元 作为 特 
征 检测 器 的 重要 作用 。 

本 章 的 第 三 部 分 ， 包括 从 4.10 节 到 4.11 节 ， 处 理 误差 曲面 的 问题 。 在 4.10 节 讨 论 反 向 
传播 学 习 在 计算 有 逼近 函数 偏 导 数 中 的 重要 作用 。 然 后 在 4.11 节 讨论 与 误差 曲面 的 Hessian 4E 
阵 相 联系 的 计算 问题 。 

第 四 部 分 ， 我 们 处 理 与 用 反 向 传播 算法 训练 过 的 多 层 感知 器 性 能 有 关 的 各 种 问题 。 在 
4.12 节 讨 论 泛 化 问题 ， 它 是 关于 学 习 的 一 个 非常 本 质 的 问题 。 在 4.13 节 讨 论 通过 多 层 感 知 
器 得 到 的 连续 函数 的 逼近 。 在 4.14 节 讨 论 把 交叉 确认 作为 统计 设计 的 工具 。 在 4.15 节 描 述 
用 一 个 程序 有 序 地 修剪 一 个 多 层 感知 器 而 同时 使 其 整体 性 能 至 少 保持 不 变 ( 和 不 断 提 高 )。 当 
计算 复杂 性 是 首要 关心 的 问题 时 ， 网 络 修剪 就 成 为 必要 的 。 

第 五 部 分 完成 反 向 传播 学 习 的 研究 。4.16 节 总 结 反 向 传播 学 习 的 重要 优点 和 局 限 。4.17 
节 研 究 启发 式 方法 ， 它 为 如 何 加 速 反 向 传播 学 习 的 收敛 速率 提供 一 个 指导 方针 。 

第 六 部 分 我 们 用 一 种 不 同 的 观点 来 看 待 学 习 。 以 提高 学 习 为 目的 ， 在 4.18 节 讨 论 监督 
学 习作 为 一 个 数值 优化 问题 的 话题 。 特 别 地 ， 我 们 描述 用 于 监督 学 习 的 共 扼 梯度 方法 和 拟 
Newton 方法 。 

这 一 章 最 后 一 部 分 4.19 节 讨 论 多 层 感知 器 本 身 。 在 那里 我 们 讨论 一 种 有 趣 的 神经 网 络 
卷 积 多 层 感 知 器 。 这 种 网 络 已 经 成 功用 于 解决 困难 的 模式 识别 问题 。 

在 4.20 节 以 一 些 一 般 性 讨论 作为 本 章 结束 。 
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4.2 预备 知识 


图 4-1 表示 一 个 具有 两 个 隐藏 层 和 一 个 输出 层 的 多 层 感 知 器 的 结构 图 。 为 了 构筑 多 层 感 
知 器 一 般 形 式 的 描述 平台 ， 这 里 说 的 网 络 是 全 连接 的 。 这 就 是 说 在 任意 层 上 的 一 个 神经 元 与 
它 之 前 的 层 上 的 所 有 节点 /神经 元 都 连接 起 来 。 信 号 在 一 层 接 一 层 的 基础 上 逐步 流 过 ， 方 向 
是 向 前 的 ， 从 左 到 右 。 





图 4-1 具有 两 个 隐藏 层 的 多 层 感知 器 结构 图 


图 4-2 描绘 多 层 感知 器 的 一 部 分 。 两 种 信号 都 
在 这 个 网 络 中 得 到 辨认 (Parker, 1987): | 

1. 函数 信号 。 一 个 函数 信和 号 是 从 网 络 输入 层 的 
末端 而 来 的 一 个 输入 信号 (刺激 )， 通 过 网 络 (一 个 
神经 元 接 一 个 神经 元 ) 传 播 ， 到 达 网 络 输出 层 的 末 
端 即 成 为 一 个 输出 信和 号。 我们 把 这 样 一 个 信和 号称 之 > 
为 “函数 信和 号 ”有 两 个 原因 。 首 先 ， 在 网 络 输 出 端 时 — as 
假设 它 表现 为 有 用 的 沙 数 。 第 二 ， 在 函数 信号 通过 一 --- 误差 信号 
网 络 上 每 一 个 神经 元 处 ， 该 处 信号 都 被 当成 输入 以 图 4-2 多 层 感 知 器 中 两 个 基本 信和 号 流 
及 与 该 神经 元 有 关 的 权 值 的 一 个 函数 来 计算 的 。 函 MIR: 函数 信号 的 前 向 传播 和 误 
数 信号 也 被 认为 是 输入 信号 。 差 信号 的 反 向 传播 

2. 误差 信号。 一 个 误差 信号 产生 于 网 络 的 一 个 输出 神经 元 ， 并 通过 网 络 (一 层 接 一 层 ) 
反 向 传播 。 我 们 称 之 为 “误差 信号 "是 因为 网 络 的 每 一 个 神经 元 对 它 的 计算 都 以 这 种 或 那 种 形 
式 涉及 误差 依赖 函数 。 

输出 神经 元 (计算 节点 ) 构 成 网 络 的 输出 层 ， 余 下 的 神经 元 (计算 节点 ) 构 成 网 络 的 隐藏 
层 。 因 此 隐藏 层 单元 并 不 是 网 络 输出 或 输入 层 的 一 部 分 一 一 因此 它们 被 称 为 “隐藏 "。 第 一 隐 
茂 层 的 信号 是 从 由 感知 单元 ( 源 节点 ) 组 成 输入 层 馈 给 的 ; 而 它 的 结果 信号 又 应 用 于 下 一 个 中 
RUE; 网络 的 其 余部 分 依 此 类 推 。 

多 层 感知 器 每 一 个 隐藏 层 或 输出 层 的 神经 元 被 设计 用 来 进行 两 种 计算 : 

1. 计算 一 个 神经 元 的 输出 处 出 现 的 函数 信号 ， 它 表现 为 关于 输入 信和 号 以 及 与 该 神经 元 
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有 关 的 突 触 权 值 的 一 个 连续 非 线性 函数 。 

2. 梯度 向 量 ( 即 误差 曲面 对 与 一 个 神经 元 输入 相连 接 的 权 值 的 梯度 ) 的 估计 计算 ， 它 需 
要 反 向 通过 网 络 。 

到 向 传播 算法 的 导出 是 相当 地 复杂 ， 要 减轻 这 个 导出 所 涉及 的 数学 负担 ， 我 们 首先 给 出 
在 推导 中 使 用 的 符号 的 一 个 小 结 。 


符号 


Si, j Ak 是 指 网 络 中 不 同 的 神经 元 ; 由 于 信号 在 网 络 中 从 左 向 右 传播 ， 神 经 元 j 

所 在 层 在 神经 元 i 所 在 层 的 右边 ， 而 当 神 经 元 j 是 隐藏 层 单元 时 神经 元 上 所 在 层 在 

神经 元 j 所 在 层 的 左边 。 

。 在 迭代 (时 间 步 )n， 网 络 的 第 n 个 训练 模式 (例子 ) 呈 现 给 网 络 。 

© FFERR n 时 的 瞬间 误差 平方 和 或 瞬间 误差 能 量 和 。 关 于 所 有 n( 即 整个 训 
练 集 ) 的 %(n) 的 平均 值 即 为 平均 误差 能 量 %,,。 

。 符号 e(n) 指 的 是 迭代 n 时 神经 元 i 的 输出 误差 信号 。 

。 符号 d(n) 指 的 是 关于 神经 元 j 的 期 望 响 应 并 用 于 计算 e(n)。 

。 符号 y(n) 指 的 是 迭代 n 时 出 现在 神经 元 j 的 输出 处 的 函数 信和 号。 

© 符号 wi (n) 表 示 突 触 权 值 ， 该 权 值 是 迭代 n 人 时 从 神经 元 i 的 输出 连接 到 神经 元 / 的 输 
入 。 这 个 权 值 在 迭代 n 时 的 修正 量 为 Aw; (n)。 

。 和 迭代 ”时 神经 元 7 的 诱导 局 部 域 ( 即 所 有 突 触 输入 的 加 权 和 加 上 偏 置 ) 记 为 w(z); 它 

构成 作用 于 神经 元 j 激活 函数 的 信号 。 

用 来 描述 神经 元 7 的 非 线 性 输入 一 一 输出 函数 关系 的 激活 函数 表示 为 pC) 

用 于 神经 元 7 的 偏 置 用 包 表示 ; 它 的 作用 可 由 一 个 与 等 于 +1 的 固定 输入 相连 的 权 

值 为 wo = b; 突 触 表示 。 

。 输入 向 量 ( 模 式 ) 的 第 i 个 元 素 用 x,(n) 表 示 。 

输出 向 量 (模式 ) 的 第 个 元 素 用 o,(n) 表 示 。 

。 学 习 率 参数 记 为 1o 

。 符号 m 表示 多 层 感知 器 的 第 1 层 的 大 小 ( 即 节点 的 数目 ); 1 =0，1，…， 工 ， 而 工 就 

是 网 络 的 “深度 "。 因 此 m 是 输入 层 的 大 小 ，m 是 第 一 个 隐藏 层 的 大 小 ，m, 是 输 

出 层 的 大 小 。 也 使 用 记号 m =M. 





4.3 反 向 传播 算法 
神经 元 j EER n 时 ( 即 呈 现 第 ”个 训练 例子 ) 输出 误差 信号 定义 如 下 ; 
e(n) = dj(n) ~ y(n) 神经 元 j 是 输出 节点 (4.1) 


我 们 将 神经 元 j 的 误差 能 量 瞬 间 值 定义 为 (1/2) ef(m”)。 相 应 的 ， 整 个 误差 能 量 的 瞬间 值 8(n) 
即 为 输出 层 的 所 有 神经 元 的 误差 能 量 瞬 间 值 的 和 ; 这 些 只 是 那些 误差 信号 可 被 直接 计算 的 
“可 见 "神经 元 。 因 此 ，8(m) 的 计算 公式 是 


Eln) = 4 D(a) (4.2) 
Ec 
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集合 C 包括 网 络 输出 层 的 所 有 神经 元 。 令 N 记 为 包含 在 训练 集中 模式 (例子 ) 的 总 数 。 对 所 
有 n 求 %(n) 的 和 然后 关于 集 的 大 小 规整 化 即 得 的 均 方 误差 能 量 ， 表 示 为 


En = Dy Bn) (4.3) 


误差 能 量 的 瞬间 值 %(n) 和 误差 能 量 的 平均 值 名 ,是 网 络 所 有 自由 参数 ( 即 突 触 权 值 和 偏 置 水 
平 ) 的 函数 。 对 下 一 个 给 定 的 训练 集 ，%,, 表 示 的 代价 函数 作为 学 习性 能 的 一 个 量度 。 学 习 过 
程 的 目的 是 调整 网 络 的 自由 参数 使 得 最 小 化 8,,。 要 达到 这 种 最 小 化 ， 我 们 使 用 第 3 章 推导 
LMS 算法 所 用 原理 相似 的 一 个 通 近 。 特 别 地 ， 我 们 考虑 一 个 训练 的 简单 方法 ， 即 权 值 在 一 个 
模式 接 一 个 模式 的 基础 更 新 ， 直 到 一 个 回合 (epoch) 结 束 ， 也 就 是 整个 训练 集 的 完全 表示 已 
被 网 络 处 理 。 权 值 的 调整 根据 每 个 呈现 给 网 络 的 模式 所 计算 的 各 自 的 误差 进行 。 因 此 ， 这 些 
单个 权 值 在 训练 集 上 的 改变 的 算术 平均 ， 是 基于 使 整个 训练 集 的 代价 函数 名 ,最 小 化 的 真实 
权 值 改变 的 一 种 估计 。 在 这 一 节 的 后 面 ， 我 们 将 给 出 这 种 估计 的 性 质 。 

然后 考虑 图 4-3， 它 描绘 神经 元 j 被 它 左边 的 一 层 神经 元 产生 的 一 组 函数 信号 所 馈 给 。 
因此 ， 在 神经 元 7 的 激活 函数 输入 处 产生 的 诱导 局 部 域 w(n) 是 


y(n) = Dl wln)y(n) (4.4) 
神经 元 j 





eC) 





yn) 





y(n) en) 


图 4-3 显现 输出 神经 元 j 细节 的 信号 流 图 


这 里 m 是 作用 于 神经 元 j 的 所 有 输入 (不 包括 偏 置 ) 个 数 。 突 触 权 值 wo (相应 于 固定 输入 
yo = +1) 等 于 神经 元 j EEO HARR n 时 出 现在 神经 元 j 输出 处 的 函数 信和 号 y(n) 是 
y(n) = 9(v(n)) (4.5) 

反 向 传播 算法 以 与 LMS 算法 类 似 的 方式 对 突 触 权 值 w (nm) 应 用 一 个 修正 值 Aw; (nn), È 
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TELL FE (n) Xt wi(n) 的 偏 导数 98(n)/3wi(n)。 根 据 微 分 的 链 式 规则 ， 可 以 将 这 个 梯度 表示 


为 
dE(n) 9%(n) 9e(n) 9y(n) 9v(n) 


9wi(n) ~ 9e(n) 9y(n) 9v(n) 9wi(n) 
偏 导 数 96(n)/3w; (n) 代 表 一 个 敏感 因子 ， 决 定 突 触 权 值 由 (m) 在 权 值 空间 的 搜索 方向 。 
在 式 (4.2) 两 边 对 e;(n) 取 微分 ， 我 们 得 到 

9 8(n) 





(4.6) 











Jen) = e(n) (4.7) 
在 式 (4.1) 两 边 对 y(n) 取 微分 ， 得 到 
my -i (4.8) 
接着 ， 在 式 (4.5) 两 边 对 w(nm) 取 微分 ， 得 到 
nea = ¥,(j(n)) (4.9) 
最 后 ， 在 式 (4.4) 两 边 对 w (mn) 取 微分 ， 得 到 
ae = y;(n) (4.10) 
将 式 (4.7) 至 (4.10) 代 人 式 (4.6) ， 得 到 
TER = CDan) (4.11) 
应 用 于 wi (n) 的 修正 Aw, (n) H delta 法 则 定义 为 
Aw,;(n) =- ER (4.12) 


其 中 站 是 反 向 传播 算法 的 学 习 率 参数 。 式 (4.12) 中 负 号 的 使 用 意味 着 在 权 空 间 中 梯度 下 降 
( 即 寻 找 一 个 使 得 名 (nn) 值 下 降 的 权 值 改变 的 方向 )。 于 是 将 (4.11) 代 入 (4.12) 中 得 到 


Awi(n) = n(n) y(n) (4.13) 
这 里 局 域 梯度 8,(n) 定 义 为 
a(n) =-~28 26(n) dein) Irla) (Cn) (y(n) (4.14) 








~ avn,(n) ~~ de(n) dy,(n) 3v (n) ~ © 

局 域 梯度 指明 突 触 权 值 所 需要 的 变化 。 根 据 (4.14) ， 输 出 神经 元 j 的 局 域 梯度 8 (n) SFR 
神经 元 相应 误差 信号 e;(n) 和 相应 激活 函数 的 导数 (0, nR., 

从 式 (4.13) 和 (4.14) 我 们 注意 到 ， 权 值 调整 Aw; ( =) 计算 所 涉及 的 一 个 关键 因子 是 神经 
元 j 输出 端的 误差 信号 e,(n)。 在 这 种 情况 下 ， 我 们 要 根据 神经 元 的 不 同位 置 ， 区 别 两 种 不 
同 的 情况 。 第 一 种 情况 ， 神 经 元 j 是 输出 节点 。 这 种 情况 的 处 理 很 简单 ， 因 为 网 络 的 每 一 个 
输出 节点 都 提供 自己 期 望 的 反应 信号 ， 使 得 计算 误差 信号 成 为 直截了当 的 事 。 在 第 二 种 情 
况 ， 神 经 元 j 是 隐藏 层 节点 。 虽 然 隐藏 层 神经 元 不 能 直接 访问 ， 但 是 它们 对 网 络 输出 的 误差 
共同 承担 责任 。 然 而 ， 问 题 是 要 知道 对 隐藏 层 神经 元 这 种 共 担 的 责任 如 何 进行 每 罚 或 奖赏 。 
这 就 是 在 2.7 节 中 讨论 过 的 信任 赋值 问题 。 这 已 被 经 过 网 络 反 向 传播 误差 信号 成 功 地 解决 
了 。 1 
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情况 1 神经 元 / 是 输出 节点 

当 神 经 元 j 位 于 网 络 的 输出 层 时 ， 给 它 提供 自己 的 一 个 期 望 响 应 。 我 们 可 以 用 式 (4.1) 
来 计算 这 个 神经 元 的 误差 信号 e (mn); 参看 图 4-3。 当 e;(n) 确 定 以 后 ， 用 式 (4.14) 来 计算 局 
域 梯度 5,(n) 是 很 直接 的 。 


情况 2 神经 元 / 是 隐藏 层 节点 


当 神 经 元 /位 于 网 络 的 隐藏 层 时 ， 就 没有 对 该 输入 神经 元 的 指定 期 望 响应 。 因 此 ， 隐 
藏 层 的 误差 信号 要 根据 所 有 与 隐藏 层 神经 元 直接 相连 的 神经 元 的 误差 来 递归 决定 。 这 就 是 
为 什么 反 向 传播 算法 的 发 展 变 得 很 复杂 的 地 方 。 考 虑 在 图 4-4 中 所 描绘 的 情况 ， 它 描绘 的 
神经 元 j 就 是 一 个 网 络 隐藏 屋 节 点 。 根 据 式 (4.14) 我 们 可 把 隐藏 层 神经 元 的 局 域 梯度 重新 
定义 为 
d€(n) Ay (n) 9 €(n) 





. = 一 = 一 (7 经 元 j 
ò (n) = Iy; (n) 3v; (n) = ay Cn Pi A), 神经 元 j 是 隐藏 的 ”(4.15) 
神经 元 j 神经 元 大 
yo=+lQ +1Q 
S wln) =b; (n) p 
dx(n) 
wa(n) un) eC) y(n) w,An) vn) P) y(n) -1 
y(n) Q D Q D O O © e(n) 


图 4-4 显现 输出 神经 元 连接 到 隐藏 神经 元 j 的 信号 流 图 
在 公式 的 第 二 行 我 们 用 到 了 式 (4.9)。 要 计算 偏 导 38(n)/ay (mn) 我 们 进行 如 下 处 理 。 从 图 4-4 
可 以 看 到 

En) = 方 Dein), 神经 元 是 输出 节点 (4.16) 


这 就 是 对 式 (4.2) 用 下 标 有 替代 下 标 j。 我 们 这 么 写 是 为 了 避免 与 在 情况 2 使 用 下 标 7 表示 一 
个 隐藏 神经 元 相 混 淆 。 在 式 (4.16) 两 边 对 函数 信号 y(n) 求 偏 导 ， 得 到 
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9 €(n) de(n) 
Jy tn) = 2 Iy tn) (4.17) 
接着 我 们 对 偏 导 数 3e (mn)/ay (mn ) 使 用 链 式 规则 ， 重 写 式 (4.17) 为 等 价 形式 
a€(n) de,(n) Iv, (n) 
Iyn) = 24) Jala) Iy ln) (4.18) 
然而 ， 从 图 4.4 我 们 注意 到 
eln) = aln) - y(n) = &(n)—@ (y(n), 神经 元 为 输出 节点 (4.19) 
因此 天 = g(a Cn) (4.20) 
我 们 从 图 4-4 也 要 注意 到 对 神经 元 来 说 ， 诱 导 局 部 域 是 
n(n) = X) weln) y(n) (4.21) 


这 里 m 是 神经 元 6 所 有 输入 的 个 数 (不 包括 偏 置 )。 同 样 在 这 里 突 触 权 值 ng (mn ) 等 于 应 用 于 
神经 元 的 偏 置 b(n) ， 相 应 的 输入 是 固定 在 值 + 1 处 的 。 求 (4.21) 对 y(n) 的 微分 得 到 








SR = y(n) (4.22) 
用 式 (4.20) 和 (4.22) 代 和 人 (4.18) ， 我 们 得 到 期 望 的 偏 微分 
ER =~ Pal n)) wn) =- Dan) wln) (4.23) 


在 第 二 行 用 到 局 域 梯度 2 (4) 的 定义 ， 它 由 式 (4.14) 给 出 ， 其 中 用 下 标 替代 j。 
最 后 ， 用 式 (4.23) 代 人 (4.15)， 得 到 关于 局 域 梯度 8,(n) 的 反 向 传播 公式 
ô (n) = pi(v(n)) D.Cn) ws n), 神经 元 j 为 隐藏 单元 (4.24) 
图 4-5 代表 式 (4.24) 的 信号 流 图 ， 假 设 输出 层 有 m Bin) pilvi(n)) 
个 神经 元 。 

在 式 (4.24) 中 与 局 域 梯度 8 (nm) 的 计算 有 关 的 
因子 gj (vw(n)) 仅 仅 依 赖 于 隐藏 层 神经 元 j 的 激活 
函数 。 这 个 计算 涉及 的 其 余 因 子 ， 也 就 是 所 有 神经 
元 的 和 ， 依 赖 于 两 组 项 。 第 一 组 项 ln), HF 


e(n) 


e(n) 





en (n) 


紧 接 隐藏 层 神经 元 j 右 端 的 层 中 直接 与 神经 元 j 相 Pm vm, (n) 
连 的 所 有 神经 元 ， 需 要 具有 误差 信 叶 e(n) MA: 图 4.5 误差 信号 反 向 转播 伴随 
参看 图 4-4。 第 二 组 项 ws (nn) 是 由 所 有 这 些 连接 的 系统 的 部 分 信号 流 图 

突 触 权 值 组 成 的 。 


现在 ,我 们 总 结 为 反 向 传播 算法 导出 的 关系 。 首 先 ， 由 神经 元 i 连接 到 神经 元 ; 的 突 触 
权 值 的 校正 值 Aw, (n) FH delta 规则 定义 如 下 ， 














权 值 学 习 率 局 部 神经 元 j 
RE |= | 参数 |. | 梯度 | | 输入 信号 (4.25) 
Aw;(n) 7 ò (n) y(n) 











其 次 ， 局 域 梯度 8,(n) 取 决 于 神经 元 j 是 一 个 输出 节点 还 是 一 个 隐藏 层 节 点 : 
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1. 如 果 神 经 元 j 是 一 个 输出 节点 ，5,(n) 等 于 导数 gj(v(n)) 和 误差 信号 e;(n) 的 乘积 ， 
它们 都 和 神经 元 相关 联 ; 参看 式 (4.14)。 

2. 如 果 神 经 元 j 是 隐藏 层 节 点 ，8 (nz) 等 于 相应 导数 wj (0, (0) ) S 的 加 权 和 的 乘积 ， 这 
些 8$ 是 对 与 神经 元 7 相连 的 下 一 个 隐藏 层 或 输出 层 中 的 神经 元 计算 得 到 的 ; 参看 式 (4.24)。 
计算 的 两 次 通过 

在 反 向 传播 算法 的 应 用 中 ， 计 算 有 两 种 截然 不 同 的 通过 。 第 一 个 通过 是 指 前 向 通过 ， 而 
第 二 个 是 指 反 向 通过 。 

在 前 向 通过 中 ， 经 过 网 络 时 突 触 权 值 保持 不 变 ， 而 网 络 的 函数 信和 号 在 一 个 神经 元 接 一 个 
神经 元 基础 上 计算 。 出 现在 神经 元 7 输出 处 的 函数 信号 计算 为 

y(n) = o(9,(n)) (4.26) 

其 中 v(n) 是 神经 元 j 的 诱导 局 部 域 ， 由 


gln) = Dln) y(n) (4.27) 


定义 ， 这 里 ，m 是 神经 元 j 的 所 有 输入 的 数量 (不 包括 偏 置 )， 而 w (n) 是 连接 神经 元 i 和 神经 
元 的 突 触 权 值 ，y, (n) 是 指 神经 元 j 的 输入 信号 或 是 出 现在 神经 元 i 的 输出 端的 函数 信和 号。 如 
果 神 经 元 j 在 网 络 的 第 一 隐藏 层 ， 则 m = mo 且 下 标 i 是 指 网 络 的 第 i 个 输入 端点 ， 我 们 写作 

yi(n) = xi(n) (4.28) 
这 里 x, (nn) 是 指 输入 向 量 ( 模 式 ) 的 第 i 个 元 素 。 在 另 一 方面 ， 如 果 神 经 元 ; 在 网 络 的 输出 层 ， 
则 m= m,， 并 且 下 标 j 是 指 网 络 的 第 j 个 输出 端点 ， 我 们 写作 

y(n) = o(n) (4.29) 
这 里 o,(n) 是 指 输出 向 量 ( 模 式 ) 的 第 j 个 元 素 。 这 个 输出 和 期 望 响应 d(n) 相 比较 ， 得 到 第 j 
个 输出 神经 元 的 误差 信和 号。 因此， 计算 的 前 向 阶段 由 输入 向 量 馈 给 的 第 一 个 隐藏 层 开 始 ， 以 
输出 层 计算 该 层 的 每 一 个 神经 元 的 误差 信号 而 结束 。 

在 另 一 方面 ， 反 向 通过 从 输出 层 开始 ， 误 差 信 和 号 向 左 经 过 网 络 一 层 一 层 传播 ， 并 且 递 归 
计算 每 一 个 神经 元 的 5( 即 局 部 梯度 )。 该 递归 过 程 允许 突 触 权 值 根据 式 (4.25) 的 delta 规则 变 
化 。 对 于 位 于 输出 层 的 神经 元 ，5 简单 地 等 于 这 个 神经 元 的 误差 信号 乘 以 它 的 非 线 性 一 次 导 
数 。 因 此 ， 我 们 使 用 式 (4.25) 来 计算 所 有 人 馈 人 输出 层 的 连接 的 权 值 变 化 。 给 出 输出 层 神经 元 
的 8， 接着 用 式 (4.24) 来 计算 倒数 第 二 层 的 所 有 神经 元 的 8 和 所 有 人 馈 入 该 层 的 连接 的 权 值 变 
化 。 通 过 传播 这 个 变化 给 网 络 的 所 有 突 触 权 值 ， 一 层 接 一 层 连续 递归 计算 。 

注意 由 于 每 给 出 一 个 训练 例子 ， 其 输入 模式 在 整个 往返 过 程 中 是 固定 的 (钳制 的 ) ， 这 个 
往返 过 程 包括 前 向 通过 和 随后 的 反 向 通过 。 
激活 函数 

计算 多 层 感 知 器 每 一 个 神经 元 的 $ 需要 关于 神经 元 的 激活 函数 p(') 的 导数 知识 。 要 导 
数 存在 ， 则 需要 函数 gp(: ) 连 续 。 用 基本 术语 ， 激 活 函 数 必需 满足 的 要 求 是 可 微 性 。 通 常用 
于 多 层 感知 器 的 连续 可 微 非 线性 激活 函数 的 一 个 例子 是 sigmoid 非 线 性 性 ; 这 里 有 两 种 形式 
要 说 一 下 : 
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1. logistic 函数 。 这 种 sigmoid 非 线 性 性 的 一 般 形式 由 





1 
T j 4. 
1 + exp(- av;(n)) a>0,-* <u (n)< © (4.30) 


定义 ， 这 里 v(n) 是 神经 元 j 的 诱导 局 部 域 。 根 据 这 种 非 线 性 性 ， 输 出 的 范围 位 于 0<y <1 
之 内 。 对 式 (4.30) 取 vw(z) 的 微分 ， 我 们 得 到 


pi( vn)) = 


aexp( — av,(n)) 
+ expl- av,(n)) 


AF y) =9;(o,(n)), 我 们 可 以 从 式 (4.31) 中 消去 指数 项 exp( - av(n))， 所 以 导数 go 
(nn)) 可 以 表示 为 





Pi(v(n)) = (4.31) 


Pi(vn)) = ay(n)[1 - y(n)] (4.32) 
因为 神经 元 j 位 于 输出 层 ， 所 以 y(n) = o,(n)。 因 此 可 以 将 神经 元 j 的 局 域 梯 度 表 示 为 
S(n) = e(n)g’j(y(n)) = ald;(n) - 0(n)Jo;,(n)[1 - o;(n)] (4.33) 
这 里 的 o,(n) 是 神经 元 ;输出 端的 函数 信号 ， 而 dj (n) 是 它 的 期 望 响应 。 另 一 方面 ， 对 任意 
的 一 个 隐藏 层 神经 元 ] ， 我 们 可 以 将 局 域 梯度 表示 为 
ò (n) = 9i(v(Cz)) 27811) wy Cn) 


= ay(n)[1-y¥,(n)] >70(n)zv(n)， 7 为 隐藏 神经 元 


从 式 (4.32) 可 以 看 出 ， 导 数 (wv(n)) 当 y(n)=0.5 时 取 最 大 值 ， 当 y(n)=0 或 y(n)=1 
时 取 它 的 最 小 值 (0)。 既 然 网 络 的 一 个 突 触 权 值 的 变化 总 量 与 导数 p(wv(n)) 成 比例 ， 因 此 对 
于 一 个 sigmoid 激活 函数 来 说 ， 突 触 权 值 改变 最 多 的 神经 元 是 那些 函数 信号 在 它们 的 中 间 范 
围 之 内 的 网 络 的 神经 元 。 根 据 Rumelhart et al. (1986a) ， 正 是 反 向 传播 学 习 这 个 特点 导致 它 作 
为 学 习 算 法 的 稳定 性 。 

2. 双 曲 正切 函数 。 另 外 一 个 经 常 使 用 的 sigmoid 非 线性 形式 是 双 曲 正切 函数 ， 它 的 最 通 
用 的 形式 由 


(4.34) 


pi(v(n)) = atanh( bv,( n)), (a,b) >0 (4.35) 
定义 ， 这 里 a Mb 是 常数 。 事 实 上 ， 双 曲 正切 函数 只 是 伸缩 和 平移 的 logistic 函数 。 它 对 
(nn) 的 导数 如 下 : 
pi(v(n))= absech (bv,(n)) = ab(1 — tanh’ ( bv; (n))) 
(4.36) 


= ia ~- y(n)]la + y(n)] 


如 果 神 经 元 ) 位 于 输出 层 ， 它 的 局 域 梯度 是 
Dln) = elne; ly ln)) = La(n) = 9(n) Ja - o(n) Ila + on)] (4.37) 
如 果 神 经 元 / 位 于 隐藏 层 ， 我 们 有 
Sn) = Wlv(n)) D7 Cn) waln) 


b (4.38) 
= gla- ya)lla + yn)] Do Ca)w(n), j 为 隐藏 神经 元 


对 logistic 函数 使 用 式 (4.33) 和 (4.34) 以 及 对 双 曲 正切 函数 使 用 式 (4.37) 和 (4.38)， 我 们 不 需 
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要 激活 函数 的 具体 信息 就 可 以 计算 局 域 梯度 8 。 
学 习 率 

反 向 传播 算法 提供 使 用 最 速 下 降 方 法 在 权 空 间 计 算得 到 的 轨迹 的 一 种 近似 。 我 们 使 用 的 
学 习 率 参数 1 越 小 ， 从 一 次 迭代 到 下 一 次 友 代 的 网 络 突 触 权 值 的 变化 量 就 越 小 ， 轨 迹 在 权 值 
空间 就 越 光 消 。 然 而 ， 这 种 改进 是 以 减 慢 学 习 速 度 为 代价 的 。 另 一 方面 ， 如 果 我 们 让 了 的 值 
太 大 以 加 快 学 习 速 度 的 话 ， 结 果 就 有 可 能 使 网 络 的 突 触 权 值 的 变化 量 不 稳定 ( 即 振荡 )。 一 个 
既 要 加 快 学 习 速度 又 要 保持 稳定 的 简单 方法 是 修改 式 (4.13) 的 delta 法 则 ， 使 它 包括 动量 [1@ 
项 ， 表 示 为 (Rumelhart et al. ,1986a) 














Aw;,(n) = oAwi(n - 1) + 76;(n) y(n) (4.39) 
这 里 a 是 动量 常数 ， 通 常 是正 数 。 它 控制 围绕 Aw, (n) 反 馈 环 S yf) 
路 ， 如 图 4-6 所 示 ， 其 中 z 表示 单位 延迟 操作 符 。 式 (4.39) 被 





称 之 为 广义 delta MIM; 它 包括 式 (4.13) 的 delta 规则 的 作为 特 z! 


殊 情况 ( 即 a=0)。 a 

为 了 看 出 由 于 动量 函数 a 在 一 系列 模式 旦 现 上 对 突 触 权 值 4 j 
的 影响 ， 我 们 将 式 (4.39) 重 新 写 为 带 下 标 ; 的 一 个 时 间 序 列 。 索 MeD Aw) 
引 e 从 初始 时 刻 0 到 当前 时 刻 n。 式 (4.39) 可 被 视 为 权 值 修正 量 图 4-6 说 明 动量 常数 & 


Awi(n) 的 一 阶 差 分 方程 。 解 这 个 关于 Aw; (nm ) 的 方程 得 到 作用 的 信号 流 图 
Aw,(n) = q Xa d;t) yC) (4.40) 


这 代表 一 个 长 度 为 n+ 1 的 时 间 序 列 。 从 式 (4.11) 和 (4.14) ， 我 们 可 知 è (n) y (n) SF -38 
(n)/3wi(n)。 因 此 我 们 将 方程 (4.40) 重 写 为 等 价 形式 

Aw;(n) =- 4 yer Fat (4.41) 
在 这 个 关系 的 基础 上 ， 我 们 来 做 以 下 深入 观察 (Watrous,1987; Jacobs, 1988) : 

1. 当前 修正 值 Aw; (n) 代 表 指 数 加 权 的 时 间 序 列 的 和 。 和 欲 使 时 间 序 列 收敛 ， 动 量 常数 必 
须 限制 在 0< | «| <1 范围 内 。 当 等 于 0 时 ， 反 向 传播 算法 运行 起 来 没有 动量 。 虽 然 在 实 
际 中 动量 常数 a 不 大 可 能 是 负 的 ,但 它 还 是 可 正 可 负 。 

2. 当 仿 导数 38(:)/3wi(t 在 连续 迭代 中 有 相同 的 代数 符号 ， 指 数 加 权 和 Aw (n) 在 数量 
增加 ， 所 以 ， 权 值 好 (nm) 被 大 幅度 调整 。 在 反 向 传播 算法 中 包含 动量 趋 于 在 稳定 的 下 降 方向 
上 加 速 下 降 。 

3. 4A FOE (1)/9 w ( 划 在 连续 迭代 中 有 相反 的 代数 符号 ， 指 数 加 权 和 Aw; (= ) 在 数量 
上 减少 ， 所 以 ， 权 值 w;(n) 调 整 不 大 。 在 反 向 传播 算法 中 包含 动 量具 有 稳定 符号 正 负 摆动 方 [170] 
向 的 效果 。 ' 

在 反 向 传播 算法 中 ， 动 量 的 使 用 对 更 新 权 值 来 说 的 一 个 较 小 的 变化 ， 而 它 对 算法 的 学 习 
可 能 会 有 一 些 有 利 的 影响 。 动 量 项 对 于 使 学 习 过 程 不 停止 在 误差 曲面 上 一 个 浅 层 的 局 部 最 小 
可 能 也 有 益处 。 

在 导出 反 向 传播 算法 时 假设 学 习 率 参数 1 是 一 个 常数 。 然 而 ， 事 实 上 它 应 该 被 定义 为 
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ns 也 就 是 说 ， 学 习 率 参数 应 该 是 依赖 连接 的 。 确 实 ， 在 网 络 的 不 同 地 方 而 使 用 不 同 的 学 习 
率 参数 会 发 生 很 多 有 趣 的 事情 。 关 于 这 一 点 在 下 一 节 我 们 会 给 出 详细 描述 。 

同样 值得 注意 的 是 ， 我 们 在 反 向 传播 算法 的 应 用 中 可 以 选择 所 有 突 触 权 值 都 是 可 调整 
的 ， 或 者 在 自 适 应 过 程 中 可 能 限制 网 络 中 某 些 权 值 使 其 保持 固定 。 对 于 后 者 ， 误 差 信 号 是 以 
通常 的 方式 通过 网 络 反 向 传播 的 ; 然而 ， 国 定 的 突 触 权 值 是 不 更 改 的 。 这 一 点 ， 可 以 简单 通 
过 使 突 触 权 值 的 学 习 率 参数 六 等 于 0 来 做 到 。 


训练 的 串 行 和 集中 方式 


在 反 向 传播 算法 的 实际 应 用 中 ， 学 习 结 果 是 从 将 指定 的 训练 例子 多 次 呈现 给 多 层 感 知 器 而 
得 到 的 。 像 前 面 提 到 过 的 一 样 ， 在 一 个 学 习 过 程 中 整个 训练 集 的 完全 呈现 称 之 为 一 个 回合 
(epoch)。 学 习 过 程 是 在 一 个 回合 接 一 个 回合 的 基础 上 进行 直到 网 络 的 突 触 权 值 和 误差 水 平稳 定 
下 来 ， 并 且 整 个 训练 集 上 的 均 方 误差 收敛 于 某 个 极 小 值 。 从 一 个 回合 到 下 一 个 回合 时 将 训练 样 
本 的 呈现 顺序 随机 化 是 一 个 很 好 的 实践 。 这 种 随机 化 易于 在 学 习 循环 中 使 得 权 空间 搜索 具有 随 
机 性 ， 因 此 可 以 在 突 触 权 值 向 量 演化 中 避免 极限 环 出 现 的 可 能 性 ; 极限 环 在 第 14 章 讨论 。 

对 于 一 个 给 定 的 训练 集 ， 反 向 传播 学 习 可 能 会 以 下 面 两 种 基本 方式 中 的 一 种 进行 : 

1. 串 行 方式 。 反 向 传播 学 习 的 串 行 方式 也 称 为 是 在 线 方式 、 模 式 方 式 或 随机 方式 。 在 
这 种 运行 方式 里 在 每 个 训练 样本 呈现 之 后 进行 权 值 更 新 ; 这 正 是 导出 目前 反 向 传播 算法 公式 
所 引用 的 运行 方式 。 具 体 地 ， 考 虑 包含 N 个 训练 例子 (模式 ) 的 一 个 回合 ， 其 顺序 是 (x(1)， 
d(1)),…，(x(N),d(N))。 该 回合 的 第 一 个 例子 对 (x(1)， a(1)) 呈 现 给 网 络 时 ， 完成 以 前 描述 
的 前 向 和 皮 向 计算 顺序 ， 导致 网 络 的 突 触 权 值 和 偏 置 水 平 的 一 定 调整 。 接 着 ， 该 回合 的 第 二 个 
样本 对 (x(2)，d(2)) 呈 现时 ， 重 复 前 向 和 反 向 的 计算 顺序 ， 导 致 网 络 的 突 触 权 值 和 偏 置 水 平 的 
进一步 调整 。 直 到 该 回合 的 最 后 一 个 例子 对 (x( N) ,qd(N)) 考 虑 完 以 后 这 个 过 程 才 结束 。 

2. 集中 方式 。 在 反 向 传播 学 习 的 集中 方式 中 ， 权 值 更 新 要 在 组 成 一 个 回合 的 所 有 训练 
例子 呈现 后 才 进 行 。 对 于 特定 的 一 个 回合 ， 我 们 将 代价 函数 定义 为 式 (4.2) 和 (4.3) 均 方 误 
差 ， 这 里 重新 写成 组 合 形式 

=v È DA (4.42) 
RN 
ej (a) EF d(n) 和 y(n) 的 差 ， 它 们 分 别 表示 期 望 响应 向 量 d(z) 的 第 / 个 分 量 和 网 络 输出 
的 相应 值 。 在 式 (4.42) 中 关于 j 的 内 层 求 和 是 对 网 络 的 输出 层 的 所 有 神经 元 进行 的 ， 而 关于 
n 的 外 层 求 和 是 对 当前 回合 的 整个 训练 集 进 行 的 。 对 于 学 习 率 参数 n%， 应 用 于 从 i 连接 到 j 
的 wi 的 修正 值 由 delta 规则 


Aw; = 





15 = -2 D e;m 9 (4.43) 


定义 。 要 计算 偏 导数 9e(n)/3w; ， 我 们 用 以 前 的 相同 方式 处 理 。 根 据 式 (4.43)， 在 集中 方式 
中 ， 权 值 的 校正 值 A 几 是 在 整个 训练 集 提交 训练 以 后 才 决 定 。 

从 在 线 运 行 的 观点 来 看 ， 训 练 的 品行 方式 比 集中 方式 要 好 ， 因 为 对 每 一 个 突 触 权 值 来 说 
需 有 更 少 的 局 部 存储 。 而 且 ， 既 然 以 随机 方式 给 定 网 络 的 训练 模式 ， 利 用 一 个 模式 接 一 个 模 
式 的 方法 更 新 权 值 使 得 在 权 值 空间 的 搜索 自然 具有 随机 性 。 这 使 得 反 向 传播 算法 陷 人 局 部 最 





SB RE 121 





小 的 可 能 性 降低 了 。 

同样 地 ， 串 行 方 式 的 随机 性 质 使 得 要 得 到 算法 收敛 的 理论 条 件 变 得 困难 了 。 比 较 而 言 ， 
训练 集中 方式 的 使 用 为 梯度 向 量 提供 了 一 个 精确 的 估计 ; 收敛 到 局 部 最 小 只 要 简单 的 条 件 就 
可 以 保证 。 集 中 方式 的 成 分 比 串 行 方 式 更 容易 并 行 化 。 

当 训 练 数据 元 余 时 ( 即 数据 集合 包含 同一 模式 的 几 个 备份 )， 我 们 发 现 不 像 集中 方式 那 
样 ， 因 为 在 一 次 只 呈现 一 个 例子 ， 从 而 串 行 方式 可 以 利用 这 种 元 余 。 当 数据 集 很 大 且 高 度 宛 
余 时 尤其 如 此 。 

总 地 来 说 ， 尽 管 反 向 传播 学 习 的 串 行 方式 有 一 些 缺 点 ， 但 它 能 够 如 此 流行 (特别 对 解决 
模式 分 类 问题 ) 有 两 个 重要 的 原因 

。 算法 的 实现 很 简单 。 

。 它 为 大 型 问题 和 困难 的 问题 提供 有 效 的 解决 方法 。 
停止 准则 

通常 ， 不 能 证 明 反 向 传播 算法 收敛 ， 并 且 没 有 明确 定义 的 停止 它 运 行 的 准则 。 相 反 ， 仅 
有 一 些 合理 的 准则 ， 它 们 每 个 都 有 自己 的 实际 用 处 ， 这 些 准则 可 以 用 于 终止 权 值 的 调整 。 要 
提出 这 样 一 个 准则 ， 考 虚 关 于 误差 曲面 的 局 部 或 全 局 最 小 的 特殊 性 质 是 符合 逻辑 的 。 将 权 值 
HE w 标记 为 局 部 或 全 局 最 小 点 。 要 使 w 成 为 最 小 点 的 一 个 必要 条 件 是 误差 曲面 对 权 值 
向量 w 的 梯度 向 量 g(w)( 即 一 阶 偏 导数 ) 在 w= w 处 等 于 0。 因 此 ， 我 们 可 以 提出 反 向 传播 
学 习 的 一 个 合理 的 收敛 准则 (Kramer and Sangiovanni-Vincentelli, 1989): 


当 梯度 向 量 的 欧 几 里 德 范 数 达 到 一 个 充分 小 的 梯度 阔 值 时 ， 认 为 反 向 传播 算法 已 经 收效 。 


这 个 收敛 准则 的 缺点 是 ， 为 了 成 功 试验 ， 学习 时 间 可 能 会 很 长 。 同 时 它 需 要 计算 梯度 向 
E g(w)。 

另 一 个 我 们 能 够 使 用 的 最 小 点 的 特殊 性 质 是 代价 函数 或 误差 量度 6, (wE w= w 处 是 
平稳 的 。 因 此 ， 我 们 可 以 建议 一 个 不 同 的 收敛 准则 : 

当 每 一 个 回合 的 均 方 误差 的 变化 的 绝对 速率 足够 小 时 ， 认 为 反 向 传播 算法 已 经 收敛 

均 方 误差 的 变化 的 绝对 速率 如 果 每 个 回合 是 在 百 分 之 0.1 到 1 之 间 ， 一 般 认为 它 足够 
小 。 有 时 候 ， 每 一 个 回合 都 会 用 到 小 到 百 分 之 0.01 这 样 的 值 。 不 幸 的 是 ， 这 个 准则 可 能 会 
导致 学 习 过 程 的 过 早 终止 。 

有 另外 一 个 有 用 的 且 有 理论 支持 的 收敛 准 则 。 在 每 一 个 学 习 和 迭代 之 后 ， 都 要 检查 网 络 的 
泛 化 性 能 。 当 泛 化 性 能 是 适当 的 ,或 泛 化 性 能 明显 达到 峰值 时 ， 学 习 过 程 被 终止 参看 
4.14 节 有 更 多 细节 。 


4.4 反 向 传播 算法 小 结 


图 4-1 给 出 一 个 多 层 感 知 器 的 结构 布局 。 反 向 传播 学 习 的 相应 的 信号 流 图 ， 包 括 学 习 过 
程 计算 的 前 向 和 反 向 阶段 ，L=2 和 mo =m =m =3 的 情况 在 图 4-7 中 表示 。 信 号 流 图 的 上 
面 一 部 分 是 说 明 前 向 通过 的 。 信 和 号 流 图 的 下 面 一 部 分 是 说 明 反 向 通过 的 ， 这 也 称 为 在 反 向 传 
播 算 法 中 计算 局 域 梯度 的 灵敏 图 (sensitivity graph) (Narendra and Parthasarathy , 1990) 。 
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aP apap aP 3 30 
图 4-7 反 向 传播 学 习 信 和 号 流 图 小 结 
图 顶部 : 前 向 通过 图 底部 : 反 向 通过 
前 面 我 们 提 到 权 值 的 品行 更 新 是 反 向 传播 算法 的 在 线 实现 的 更 好 方法 。 对 这 种 方式 运 
行 ， 算 法 通过 训练 样本 | (x(n) ,€(n)) |S. 进行 循环 如 下 : 
1. 初始 化 。 假 设 没有 先 验 知识 可 用 ， 我 们 以 一 个 随机 分 布 随机 地 挑选 突 触 权 值 和 阔 值 ， 
这 个 分 布 选择 为 均值 等 于 0 的 均匀 分 布 ， 它 的 方差 的 选择 应 该 使 得 神经 元 的 诱导 局 部 域 的 标 
准 偏差 位 于 sigmoid 激活 函数 的 线形 部 分 与 他 和 部 分 过 渡 处 。 
2. 训练 样本 的 呈现 。 呈 现 训练 样本 的 -个 回合 给 网 络 。 对 训练 集中 以 某 种 形式 排序 的 
每 个 样本 ， 依 次 进行 在 下 面 的 第 3 点 和 第 4 点 中 所 描述 的 前 向 和 反 向 计算 。 
3. 前 向 计算 。 在 该 回合 中 设 一 个 训练 样本 是 (x(n),d(n))， 输 入 向 量 x(n) 指 向 感知 节 
点 的 输入 层 和 期 望 响应 向 量 d(m) 指 向 计算 节点 的 输出 层 。 不 断 地 经 由 网 络 一 层 一 层 地 前 进 ， 
可 以 计算 网 络 的 诱导 局 部 域 和 函数 信号 。 在 层 ! 的 神经 元 /的 诱导 局 部 域 ofo (mn ) 为 


vP (n) = S wP (n) y(n) (4.44) 


这 里 oy? (n FETE n 时 前 面 第 1 - 1 层 的 神经 元 i 的 输出 (函数 ) 信 号， 而 wP (n) EA 
1 -1 层 的 神经 元 i 指向 第 1 层 的 神经 元 j 的 权 值 。 对 i =0, RIA ys O(n) = + 1， 并 且 
wh (n) = b(n) 是 第 1 层 的 神经 元 i 的 偏 置 。 假 设 使 用 一 个 sigmoid 函数 ， 则 第 1 层 的 神经 
元 j 的 输出 信号 是 
l y = @(a(n)) 
如 果 神 经 元 j 是 在 第 一 隐藏 层 ( 即 1=1)， 置 

y(n) = x(n) 
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这 里 x(n) EMANE x(n) 的 第 7 个 元 素 。 如 果 神 经 元 j 在 输出 层 ( 即 ! = L， 这 里 的 工 称 为 
网 络 的 深度 )， 令 l 
ye = on) 
计算 误差 信号 
eln) = dj(n) - gln) (4.45) 

这 里 dj(n) 是 期 望 响应 向 量 d(n ) 的 第 j 个 向 量 。 

4. 反 向 计算 。 计 算 网 络 的 5( 即 局 域 梯度 ), 定义 为 

e (ng (vi? (n)) 对 输出 层 工 的 神经 元 7 


BO) = by (Cn) SL Cn) wll Cn) 对 隐藏 层 ! 的 神经 元 | 4-49) 


这 里 w;(') 是 指 对 自 变 量 的 微分 。 根 据 广 义 delta 规则 调节 网 络 第 1 层 的 突 触 权 值 : 
wP (n +1) = wP (n) + al wy (n -1)] + i? (nd yf? (n) (4.47) 
这 里 ?为 学 习 率 参数 ，o 为 动量 常数 。 
5. 和 迭代。 通过 呈现 新 的 一 回合 样本 给 网 络 根据 第 3 点 和 第 4 点 进行 前 向 和 反 向 选 代 计 
算 ， 直 到 满足 停止 准则 。 
注意 : 训练 样本 的 呈现 顺序 从 一 个 回合 到 另 一 个 回合 必须 是 随机 的 。 动 量 和 学 习 率 参数 
随 着 训练 迭代 次 数 的 增加 而 调整 (通常 是 减少 的 )。 以 后 会 给 出 这 些 点 的 理由 。 


4.5 异 或 问题 


一 个 基本 的 ( 单 层 ) 感 知 器 没有 隐藏 神经 元 。 因 此 ， 它 不 能 对 非 线性 可 分 的 输入 模式 分 
类 。 然 而 ， 非 线性 可 分 模式 却 是 很 普遍 的 。 例 如 ， 对 异 或 (XOR) 问 题 就 遇 到 这 种 情形 ， 它 可 
以 看 作 在 单位 超 立方 体 中 更 一 般 的 点 分 类 问题 的 特例 。 在 超 立 方 体 中 的 每 个 点 不 是 属于 类 0 
就 是 属于 类 1。 但 是 对 异 或 问题 特殊 情形 ， 我 们 仅 考 虑 单位 正方 形 的 四 个 角 ， 相 应 的 输入 模 
式 为 (0,0 ),(0,1 ),(1,0 ) 和 (1,1)。 第 一 个 和 第 三 个 输入 模式 属于 类 0， 即 

0@0=0 
和 1®1=0 

BORN AS RAK BORA WARA, OMO, DERMEN E RAAR 
角 ， 但 它们 产生 相同 的 结果 是 0。 另 一 方面 ， 输 入 模式 (0,1) 和 (1,0) 是 单位 正方 形 的 另 一 对 
相对 的 角 ， 但 是 它们 属于 类 1， 即 

0 由 1=1 
和 160 =1 

首先 我 们 知道 有 两 个 输入 的 单个 神经 元 的 使 用 得 到 的 决策 边界 是 输入 空间 的 一 条 直线 。 
在 这 条 直线 的 一 边 的 所 有 的 点 ， 神 经 元 输出 1; 而 在 这 条 直线 的 另 一 边 的 点 ， 神 经 元 输出 0。 
在 输入 空间 中 这 条 直线 的 位 置 和 方向 由 与 两 个 输入 节点 相连 的 神经 元 的 突 触 权 值 和 它 的 偏 置 
决定 。 由 于 输入 模式 (0,0) 和 (1,1) 是 位 于 单位 正方 形 的 相对 的 两 个 角 ， 输 入 模式 (0,1) 和 
(1,0) 也 一 样 ， 很 清楚 我 们 作 不 出 这 样 一 条 直线 作为 决策 边界 可 以 使 (0,0) 和 (1,1) 在 一 个 区 
域 ， 而 (1,0) 和 (0,1) 在 另 一 区 域 。 换 名 话说， 一 个 简单 感知 器 不 能 解决 XOR 问题 。 

如 图 4-8a 中 所 示 ， 我 们 可 以 使 用 一 层 有 两 个 神经 元 的 隐藏 层 来 解决 异 或 问题 (Touretzky 
and Pomerleau, 1989) 。 网 络 的 信和 号 流 图 在 图 4-8 b 给 出 。 这 里 作 以 下 假设 : 
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输出 层 


图 4-8 





a) 解 决 XOR 问题 的 网 络 结构 图 b) 网 络 信号 流 图 


。 每 一 个 神经 元 都 由 一 个 MeCulloch-Pitts 模 型 表 
AN, (EFA BE RREA C BR PAK 
。 比特 符号 0 和 1 分 别 由 水 平 0 和 +1 表示 。 
隐藏 层 中 顶部 神经 元 标记 为 1， 定 义 为 
wn= Wy =+1 


3 
be- > 


该 隐藏 神经 元 构造 的 决策 边界 的 斜率 等 于 - 1， 在 图 
4-9a 给 出 其 位 置 。 在 隐藏 层 中 底部 神经 元 标记 为 2， 定 
义 为 

Wy = Wy =+1 


总 = 一 了 


第 二 隐藏 神经 元 构造 的 决策 边界 的 方向 和 位 置 由 图 4-9b 
给 出 。 
图 4-8a 的 标记 为 3 的 输出 神经 元 定义 为 
Wy = 一 2 


Wy =+ 1 


bs=- 7 


输出 神经 元 的 功能 是 对 两 个 隐藏 神经 元 形成 的 决策 边 
界 构造 线性 组 合 。 这 个 计算 结果 表示 在 图 4-9c 中 。 底 
部 隐藏 神经 元 由 一 个 兴奋 ( 正 ) 连 接 到 输出 神经 元 ， 而 
顶部 隐藏 神经 元 由 一 个 更 强 的 抑制 ( 负 ) 连 接 到 输出 神 
经 元 。 当 两 个 隐藏 神经 元 都 断 开 时 ， 这 种 情况 当 输 入 
信号 是 (0,0) 时 发 生 ， 输 出 神经 元 保持 断 开 。 当 两 个 隐 
藏 神经 元 都 接 通 时 ， 这 种 情况 当 输入 模式 是 (1,1) 时 发 
E, 输出 神经 元 也 保持 断 开 ， 因 为 由 连 向 顶部 隐藏 神 


1(1,1) 


(1,0) 





(0,1) (1,1) 








(0,0) == (1,0) 





(0,1) g (1,1) 





om (1,0) 


A 


Cc) 


图 4-9 
a) 在 图 48 中 的 网 络 隐藏 神经 元 1 所 构 
造 的 决策 边界 _b) 网 络 隐藏 神经 元 2 所 
构造 的 决策 边界 ce) 整个 网 络 所 构造 的 
决策 边界 
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经 元 负 权 值 产生 的 抑制 效果 超过 由 连 向 底部 隐藏 神经 元 正 权 值 产 生 的 兴奋 效果 。 当 项 部 隐藏 
神经 元 是 断 开 的 而 底部 隐藏 神经 元 是 接 通 的 ， 即 输入 模式 是 (0,1) 或 (1,0) 时 ， 输 出 神经 元 是 
接 通 的 ， 因 为 正 的 权 值 连 向 了 底部 隐藏 神经 元 。 因 此 图 4-8a 确实 解决 了 异 或 问题 。 


46 改善 反 向 传播 算法 性 能 的 试探 法 


人 们 常 说 ， 用 于 反 向 传播 算法 的 神经 网 络 的 设计 与 其 说 是 科学 ， 不 如 说 更 像 一 门 艺 术 ， 
因为 这 个 设计 中 的 很 多 数值 因素 依赖 于 个 人 自己 的 经 验 。 从 某 种 意义 上 讲 这 个 论断 是 正确 
的 。 但 是 ， 也 有 些 方 法 能 对 反 向 传播 算法 有 重大 提高 ， 可 描述 如 下 : 

1. 串 行 更 新 而 不 是 集中 方式 更 新 。 如 前 面 已 经 提 到 过 的 ， 反 向 传播 学 习 的 串 行 方式 ( 涉 
及 一 个 模式 接 一 个 模式 的 更 新 ) 要 比 集中 方式 的 计算 快 。 特 别 当 训练 数据 集 很 大 且 高 度 完 余 
时 ， 更 是 如 此 。( 高 度 元 余 的 数据 对 集中 方式 更 新 所 需要 的 Jacobi 矩阵 的 估计 提出 了 计算 上 
的 问题 。) 

2. 最 大 可 能 的 信息 内 容 。 作 为 一 个 基本 的 规则 ， 对 呈现 给 反 向 传播 算法 的 每 一 个 训练 
样本 的 挑选 必须 建立 在 其 信息 内 容 对 解决 问题 有 最 大 可 能 的 基础 上 (LeCun,1993)。 达 到 这 个 
目标 的 两 种 方法 是 : 

。 使 用 训练 误差 最 大 的 样本 。 

。 使 用 的 样本 要 与 以 前 使 用 的 有 根本 区 别 。 

这 两 个 试探 方法 起 因 于 对 权 空 间 进 行 更 多 搜索 的 愿望 。 

在 模式 分 类 的 任务 中 使 用 串 行 反 向 传播 学 习 ， 经 常 使 用 的 一 个 简单 技巧 是 将 样本 每 个 回 
合 呈 现 给 多 层 感 知 器 的 顺序 随机 化 ( 即 弄 乱 )。 理 想 情 况 下 ， 随 机 化 可 以 确保 一 个 回合 中 的 相 
继 的 样本 很 少 属于 同一 类 。 

对 于 一 个 更 加 改良 的 技巧 ， 我 们 使 用 强调 图 表 ， 这 涉及 呈现 给 网 络 更 加 困难 的 模式 而 不 
古 容 易 的 模式 。 一 个 特定 的 模式 是 容易 还 是 困难 可 以 通过 检查 其 产生 的 误差 与 算法 以 前 选 代 
所 产生 的 误差 进行 比较 来 确认 。 然 而 ， 在 使 用 强调 图 表 时 有 两 个 问题 需要 仔细 注意 : 

。 一 个 回合 中 呈现 给 网 络 的 样本 分 布 是 变形 的 。 

。 例外 点 或 是 错误 标记 的 样本 的 出 现 对 于 算法 的 性 能 会 有 一 个 灾难 性 的 后 果 ; 学 习 这 

样 的 例外 点 对 网 络 在 输入 空间 中 更 大 可 能 区 域 的 泛 化 能 力 带 来 损害 。 

3. 激活 函数 。 一 般 来 说 ， 当 网 络 的 神经 元 模型 嵌 人 的 sigmoid 激活 函数 是 反对 称 而 不 是 
非 对 称 时 ， 一 个 用 反 向 传播 算法 训练 的 多 层 感 知 器 会 学 得 快 一些 ; 详细 内 容 请 看 4.11 节 。 
当 一 个 激活 函数 pCw) 满 足 条 件 

l- v) =- g(r) 
我 们 说 它 是 反对 称 的 ( 即 为 它 的 自 变 量 的 奇 函 数 )， 见 图 4-10a。 在 图 4-10b 的 标准 logistic R 
数 不 满 足 该 条 件 。 
关于 反对 称 函 数 的 一 个 非常 流行 的 例子 是 一 个 双 曲 正切 的 sigmoid 型 非 线 性 性 ， 即 
plv) = atanh( bv) 
其 中 a, b 是 常数 。 合 适 的 a, b 值 是 (LeCun, 1989, 1993) 
a= 1.7159 


2 
b= 3 
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b) 


图 4-10 
a) 反 对 称 激活 函数 b) 非 对 称 激 活 函 数 


这 样 定义 的 双 曲 正切 函数 有 如 下 有 用 的 性 质 : 
e 9p(1)=1 和 gqg(-1)= -1。 
。 在 原点 激活 函数 的 倾斜 度 ( 即 有 效 增益 ) 接 近 于 1， 如 下 所 示 : 
ọ(0) = ab = 1.7159 x 2/3 = 1.1424 
。 9(Co) 的 二 阶 导 数 在 v = 1 时 达到 最 大 。 
4. 目标 值 。 在 sigmoid 激活 函数 的 范围 内 选择 目标 值 (期 望 响 应 ) 是 很 重要 的 。 特 别 地 ， 
多 层 感知 器 的 输出 层 的 神经 元 j 的 期 望 响 应 d 必须 被 与 sigmoid 激活 函数 的 极限 值 偏离 某 个 s 
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值 。 和 否则 反 向 传播 算法 会 使 网 络 的 参数 趋向 于 无 穷 大 ， 驱 使 隐藏 神经 元 达到 饱和 从 而 减 慢 学 
习 过 程 。 具 体 地 ， 考 虑 图 4- 10a 所 示 的 反对 称 激活 函数 。 对 于 极限 值 + a， 我 们 令 
d =a-e 

对 于 有 限 值 a, RIS 
d; 
这 里 s 是 一 个 合适 的 正常 数 。 对 前 面 选择 的 a =1.7159， 可 以 令 e=0.7159， 这 样 ， 目 标 值 可 
以 方便 地 选 为 上 1， 见 图 4- 10a。 

5. 输入 规整 化 。 每 一 个 不 同 的 输入 变量 都 需要 预 处 理 ， 使 得 它 关 于 整个 训练 集 求 平均 
的 均值 接近 0, 或 者 与 标准 偏差 相 比 是 比较 小 的 (LeCun,1993 )。 为 评价 这 个 规则 的 实际 意 
X, 我们 考虑 当 输 入 恒 正 时 的 极端 情况 。 在 这 种 情况 下 ， 第 一 隐藏 层 的 一 个 神经 元 的 所 有 突 
触 权 值 只 能 同时 增加 或 同时 减少 。 所 以 ， 如 果 这 个 神经 元 权 值 向 量 改 变 方 向 ， 则 它 的 误差 曲 
面 的 路 径 变 成 锯齿 形 的， 这 会 使 收敛 速率 变 慢 ， 因 此 应 该 避免 。 

要 加 速 反 向 传播 学 习 的 过 程 ， 输 入 变量 的 规整 化 必须 包括 下 面 两 个 步 又: 

。 训练 集 包含 的 输入 变量 应 该 不 相关 的 ; 这 可 以 通过 第 8 章 提 到 的 主 分 量 分 析 法 来 做 

到 。 
。 去 相关 后 的 输入 变量 应 调整 其 长 度 使 得 它们 的 协 方差 近似 相等 ， 因 此 可 以 保证 网 络 
中 的 不 同 突 触 权 值 以 大 约 相 等 的 速度 进行 学 习 。 

图 4-11 说 明 依 次 执行 规整 化 三 个 步骤 的 结果 : 消除 均值 ， 去 相关 性 ， 以 及 协 方差 均衡 。 

6. 初始 化 。 网 络 的 突 触 权 值 和 阅 值 初 值 的 一 个 较 好 的 选择 对 一 个 成 功 的 网 络 设 计 会 有 
巨大 的 帮助 。 关 键 问 题 是 : 什么 是 好 的 选择 ? 

当 突 触 权 值 被 赋予 一 个 较 大 的 初始 值 ， 那 么 网 络 的 神经 元 很 可 能 会 趋 于 饱和 。 如 果 发 生 
这 种 情况 ， 反 向 传播 算法 中 的 局 域 梯度 呈现 出 一 个 很 小 的 值 ， 结 果 导 致 反 向 传播 学 习 过 程 很 
缓慢 。 然 而 ， 如 果 突 触 权 值 被 赋予 一 个 较 小 的 初始 值 ， 反 向 传播 算法 可 能 就 在 误差 曲面 的 原 
点 的 一 个 非常 平缓 的 区 域内 进行 ， 特 别 对 于 反对 称 函 数 (如 双 曲 正切 函数 ) 的 条 件 下 ， 这 种 可 
能 性 就 更 大 。 不 幸 地 是 ， 这 个 原点 是 一 个 鞍点 ， 这 个 鞍点 是 一 个 稳定 点 ， 在 该 点 处 与 马鞍 正 
交 的 误差 曲面 的 曲率 为 正 ， 而 沿 着 马鞍 方向 为 负 。 由 于 这 些 原因 ,使 用 过 大 或 过 小 值 初始 化 
突 触 权 值 都 应 该 避免 。 恰 当 的 初始 化 选择 位 于 这 两 种 极端 之 间 。 

具体 地 ， 考 虑 将 一 个 双 曲 正切 函数 作为 激活 函数 的 多 层 感知 器 。 设 网 络 的 每 一 个 神经 元 
偏 置 为 0。 我 们 将 神经 元 j 的 诱导 局 部 域 表示 为 


vy = Dy wyi 
假设 网 络 的 每 -个 神经 元 的 输入 的 均值 为 0 方差 为 1， 表示 为 
um = Ely) = 0 ”对 所 有 神经 元 i 


=-—ate 


和 
ó, = El(y,-p,)?] = Ely] =1 对 所 有 神经 元 i 
进一步 ， 假 设 输入 值 都 是 不 相关 的 ， 即 
l,k =i 


Elyn] = to ksi 
并 且 设 突 触 权 值 的 值 是 以 均值 为 0 的 均匀 分 布 抽取 的 一 组 数 
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图 4-11 二 维 输入 空间 的 消除 均值 、 去 相关 性 以 及 协 方差 均衡 运算 的 图 示 
py = E[wi] = 0 ”对 所 有 (j,i) 对 
和 方差 


È, = El (w; — u) ] = El w3] 对 所 有 (j,i) 对 
因此 我 们 可 以 将 诱导 局 部 域 v 的 均值 和 方差 表示 为 


pe = Ely] = EL yu l= X Elw n lELy,] = 


m 


= El (v; -m )] = Elv = >) _ wade | 

183 = -5 $ Elus ¡wp EL yiya | = elu} Oy 
这 里 m 是 一 个 神经 和 元 的 突 触 连 接 的 数目 。 

根据 上 述 结果 ， 我 们 对 如 何 将 突 触 权 值 初始 化 描述 一 个 好 策略 ， 使 得 神经 元 诱导 局 部 域 

的 标准 偏差 位 于 它 的 sigmoid 激活 函数 的 线性 部 分 和 饱和 部 分 的 过 渡 区 域 。 例 如 ， 如 前 所 述 

的 参数 a Alb 所 设 值 的 双 曲 正切 函数 ， 当 式 (4.48) 中 的 o, = 1 时 可 以 满足 这 个 目标 ， 这 样 我 


(4.48) 
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们 得 到 
o, = m” (4.49) 

因此 ， 对 于 一 个 均匀 分 布 ， 它 需要 其 均值 为 0 而 方差 将 与 神经 元 的 突 触 连接 的 数目 成 反比 ， 
从 而 以 这 个 分 布 来 选择 突 触 权 值 的 值 。 

7. 从 提示 中 学 习 。 从 一 组 未 知 的 训练 例子 中 学 习 意 味 着 处 理 未 知 的 输入 - 输出 映射 函 
数 f(' )。 事 实 上 ， 学 习 过 程 利用 函数 A O ) 例 子 所 包含 的 信息 来 推断 它 的 允 近 实现 。 从 例子 
中 学 习 的 过 程 可 以 推广 为 包括 从 提示 中 学 习 ， 这 可 以 由 在 学 习 过 程 中 允许 包括 我 们 已 有 的 关 
于 函数 /(: ) 的 先 验 知识 来 实现 (Abu-Mostafa,1995 )。 这 些 知识 包括 不 变性 、 对 称 性 或 关于 函 
数 /.) 的 其 他 知识 ， 它 们 可 以 用 来 加 速 O ) 的 逼近 实现 的 搜索 ， 而 且 更 重要 的 是 ， 会 提高 
最 后 估计 的 质量 。 式 (4.49) 的 使 用 就 是 怎样 取得 这 一 点 的 例子 。 

8. 学 习 率 。 多 层 感知 器 的 所 有 神经 元 理论 上 应 以 同一 速率 进行 学 习 。 网 络 的 最 后 一 层 
的 局 域 梯度 通常 比 别 的 层 大 。 因 此 ， 最 后 一 层 的 学 习 率 参数 ?应 设 得 比 别 的 层 小 。 有 很 多 输 
人 的 神经 元 的 学 习 率 参数 应 比 输入 较 少 的 神经 元 小 。 在 LeCun(1993) 中 提 到 对 一 个 给 定 的 神 
经 元 ， 其 学 习 率 应 与 该 神经 元 的 突 触 连接 的 平方 根 成 反比 。 关 于 学 习 率 我 们 将 在 4.17 节 中 
作 更 多 的 讨论 。 


4.7 输出 表示 和 决策 规则 
理论 上 , 一 个 M 类 分 类 问题 中 对 MM 个 不 同类 的 并 组 成 整个 输入 空间 ， 我 们 需要 1M 个 输 


出 表示 所 有 可 能 的 分 类 决策 ， 如 图 4-12 所 描绘 。 在 这 Yj 
AH, EL x, 指 由 多 层 感知 器 分 类 的 m ERLE 多 层 感知 器 oh 
x 的 第 / 个 原型 ( 即 ， 惟 一 的 样本 )。x 可 以 属于 的 MA Mj 
可 能 类 的 第 类 表示 为 8,。 用 yy 表示 响应 于 x 的 网 络 图 4-12 模式 分 类 的 方 框图 
的 第 个 输出 神经 元 的 输出 ， 表 示 如 下 

ye; = F), k = 1,2,.…,M (4.50) 


这 里 函数 尺 (…) 定 义 网 络 从 输入 到 第 k ME TCE AR. Nea TL, S 
yj = [ys ya Yn] = [F (x), Fox) 0) F(x)" = F(x,) (4.51) 
这 里 F(* ) 是 一 个 向 量 值 函 数 。 在 这 一 节 我 们 想 解 决 的 一 个 基本 问题 是 : 
在 一 个 多 层 感知 器 被 训练 后 ， 用 于 分 类 网 络 M 个 输出 的 最 优 决策 规则 应 该 是 什么 ? 
很 清楚 ， 任 何 合理 的 决策 规则 都 应 该 建立 在 下 述 向 量 值 函 数 的 基础 上 ; 
F:R” Dx—>yE R” (4.52) 
AKV, KFE EA AR E HY — AE te — PEE R R AEE a UI RB) 
R = sy D la - Fe)? (4.53) 


这 里 d 是 原型 x 的 期 望 (目标 ) 输 出 模式 ，|| - | 是 所 含 向 量 的 欧 儿 里 德 范 数 ，N 是 输入 网 
络 进行 训练 的 样本 数目 。 式 (4.53) 准 则 的 本 质 与 式 (4.3) 的 代价 函数 一 致 。 向 量 值 函数 F(. ) 
强烈 依赖 于 用 于 网 络 训练 的 例子 (x ,d )， 因 此 不 同 的 (xi ,d ) 值 会 导致 不 同 的 向 量 值 函数 
F(*)。 注 意 ， 这 里 用 到 的 (x ,d ) 术 语 和 前 面 用 到 的 (x(7),d(7)) 相 同 。 

假设 现在 用 二 值 目标 值 来 训练 网 络 ( 当 网 络 使 用 logistic 函数 时 它 恰巧 对 应 于 网 络 输出 的 
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上 限 和 下 限 )， 可 以 写 为 
Slo ”原型 x KPH, 

基于 上 面 的 解释 ，%, 表示 为 M 维 目 标 向 量 

0 

1 | 一 第 个 元 素 

0 
对 一 组 有 限 的 相互 独立 且 同 分 布 (i.i.d) 的 训练 样本 使 用 反 向 传播 算法 训练 多 层 感 知 分 类 器 ， 
一 种 富有 吸引 力 的 假设 是 该 多 层 感知 分 类 器 可 能 得 到 固有 的 后 验 类 概率 的 一 个 渐进 近似 。 这 


个 性 质 可 由 下 面 的 理由 证 实 (White,1989a; Richard and Lippmann, 1991) : 
。 利用 大 数 定律 证 明 当 训 练 集 的 大 小 N 趋 于 无 穷 大 时 ， 最 小 化 式 (4.53) 中 代价 泛 函 R 


的 权 值 向 量 w 趋 于 使 随机 量 广 | da- FC(w,x) | 的 期 望 最 小 的 最 优 权 值 向 量 w” ， 其 


中 a 是 期 望 响 应 向 量 ，F(w,x) 是 输入 为 x 时 具有 权 值 向 量 w 的 多 层 感知 器 所 实现 的 
BWA (White, 1989a )。 函 数 F(w,x) 明 确 表示 对 权 值 向 量 w 的 依赖 ， 就 是 前 面 说 的 
F(x). 
。 最 优 权 值 向 量 w 使 得 网 络 实际 输出 Fw ,x)， 是 给 定 输入 向 量 x 期 望 响 应 向 量 的 
条 件 期 望 的 均 方 误差 最 小 的 估计 值 (White,1989a )。 这 在 第 2 章 已 经 讨论 过 了 。 
对 于 1 对 M 的 模式 分 类 问题 ， 如 果 输 入 向 量 x 属于 6,， 则 期 望 响 应 向 量 的 第 大 个 元 
素 等 于 1， 其 他 分 量 为 0。 因 此 对 于 给 定 的 x， 期 望 响 应 向 量 的 条 件 期 望 等 于 后 验 类 
概率 P(€, | x), k=1, 2, =+, M(Richard and Lippmann,1991 )。 
因此 随 之 而 来 的 是 如 果 训 练 集 足 够 大 且 反 向 传播 算法 没有 陷 人 局 域 极 小 ， 则 一 个 多 层 感知 分 
类 器 (使 用 logistic 函数 非 线性 性 ) 确 实 接近 于 后 验 类 概率 。 我 们 现在 可 以 回答 前 面 提出 的 问题 。 
具体 地 ， 我 们 可 以 说 一 个 适当 的 输出 决策 规则 是 由 后 验 概率 估计 产生 的 (近似 )Bayes 规则 : 


如 果 F(X) > F(x), SHA jek (4.55) 
HM PLS DRAS, REF, (Xx) 和 F(x) FAN ERR BRD: 
F,(x) 
F(x) = fo 
Fy (x) 


当 固有 的 后 验 分 类 分 布 互 不 相同 时 ， 以 概率 1 存在 惟一 的 最 大 输出 值 。( 这 里 假设 使 用 无 限 
精度 计算 ; 有 限 精度 时 才 可 能 出 现 多 于 一 个 最 大 值 的 情形 。) 决 策 规则 的 优点 是 比 基 于 输出 
“点 火 " 概 念 选择 类 属 关系 的 常用 “特别 ”法则 提供 了 一 个 更 明确 的 决策 。 这 里 常用 “特别 "规则 
是 指 如 果 相 应 输出 值 比 固定 的 阐 值 大 (对 logistic 形 的 激活 函数 常用 0.5)， 向 量 x 是 赋值 给 特 
定 的 类 属 关 系 ， 这 会 导致 多 重 类 赋值 。 
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在 4.6 节 我 们 指出 与 式 (4.30) 的 logistic 函数 相应 的 二 值 目标 值 [0,11 常 用 一 个 小 的 e 进 
行 扰动 后 作为 实际 度量 值 ， 这 样 可 以 在 网 络 的 训练 中 避免 突 触 权 值 的 饱和 (由 于 有 限 的 数值 
精度 )。 作 为 这 个 扰动 的 结果 ， 现 在 目标 值 是 非 二 值 的 ， 而 且 渐 进逼 近 Fi (x) 不 再 精确 是 M 
类 的 一 个 后 验 概率 P(@，| x)(Hampsire and Pearlmutter, 1990 ) 。 相 反 P(%, | x) 线 性 映射 到 闭 
区 间 [s,1-e]， 使 得 P(@; | x) =0 对 应 输出 es， 而 P(6,， | x) = 1 对 应 1~e。 由 于 这 个 线性 映 
射 保持 相对 的 顺序 ， 它 并 不 影响 应 用 式 (4.55) 的 决策 规则 的 结果 。 

同样 有 趣 的 是 ， 当 一 个 决策 边界 由 一 个 多 层 感知 器 的 输出 经 过 一 些 固定 阐 值 判断 形成 
时 ,决策 边界 的 所 有 形状 和 方向 可 以 试探 地 (对 一 个 隐藏 层 的 情形 ) 用 相应 的 隐藏 神经 元 的 数 
目 和 与 之 连接 的 突 触 权 值 的 比 来 解释 (Lui, 1990 )。 然 而 ， 这 样 的 分 析 不 能 应 用 于 根据 式 
(4.55) 的 输出 决策 规则 形成 的 决策 边界 。 一 个 更 合适 的 处 理 是 将 隐藏 层 神 经 元 当成 非 线性 特 
征 检测 器 ， 它 对 原始 输入 空间 Ro (这 里 类 之 间 可 能 并 不 是 线性 可 分 的 ) 映 射 为 在 隐藏 层 激活 
输出 的 空间 ， 此 处 它们 更 有 可 能 是 线性 可 分 的 。 


4.8 计算 机 实验 


在 这 一 节 我 们 用 计算 机 实验 来 说 明 多 层 感知 器 作为 模式 分 类 器 的 学 习 行为 。 实 验 的 目标 
是 区 别 两 类 * 重 区 "的 二 维 Gauss 分 布 模式 (标号 为 1 和 2)。 用 %, 和 %, 分 别 表示 随机 向 量 x 属 
于 模式 1 和 2 的 事件 集合 。 然 后 ， 我 们 可 以 分 别 表示 这 两 类 的 条 件 概率 密度 函数 : 


BE, : f(x1'®®,) = zoo - 3 [x-y || ?| (4.56) 
Ep, p = 均值 向 量 = [0，0]7，doi = 方差 =1 
KE, : f (x18) = zon( -3 [x-y || ?| (4.57) 


其 中 , pw =(2, 0], 到 =4 
(IIx AR SH, BI 
Pi = P2 = i 
图 4- 13a 分 别 表示 了 式 (4.56) 和 (4.57) 两 类 Gauss 分 布 的 三 维 图 。 输 入 向 量 是 x= [x ,x,]7， 
且 输 入 空间 的 维 数 是 m = 2。 图 4-14 是 类 1 和 类 2 的 各 自 的 散布 图 和 它们 的 联合 散布 图 ， 
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图 中 分 别 从 两 个 过 程 中 选取 了 500 个 点 。 后 一 个 图 清楚 地 表示 两 种 分 布 的 重合 ， 这 表明 无 可 
避免 会 有 明显 的 分 类 错误 概率 。 


Bayesian 决策 边界 

最 优 分 类 的 Bayes 准则 在 第 3 章 中 已 经 讨论 过 了 。 假 设 那 是 一 个 两 类 问题 ，(1) 类 %, 和 
RE, 等 概率 ，(2) 正 确 分 类 的 代价 为 0，(3) 错 误 分 类 的 代价 是 相等 的 ， 我 们 发 现 最 优 决 策 边 
界 是 利用 似 然 比 检验 : 


€, 
A(x) sÈ (4.58) 
€, 


这 里 A(x) 是 似 然 比 ， 定 义 为 
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图 4-13 
a) 概 率 密度 函数 f(x1&| ) b) 概 率 密度 函数 A (x1%, ) 
fr (x | @1) 
是 检验 的 立 值 ， 定 义 为 
-P 
£= p = 1 (4.60) 


对 考虑 的 例子 ， 我 们 有 


AGO = Gerp -zg 1x- ml + zg x e I?) 
因此 ， 最 优 (Bayes) 决 策 边界 由 
h 


S exp - zg lx -m Il? ggix-mil*)=1 


Ol 


定义 ,或 者 等 价 地 定义 为 


4lx-ml?- $lx- ll? = so 2) (4.61) 
利用 简单 的 运算 ， 可 以 将 式 (4.61) 简 化 为 
x-xl = r (4.62) 
这 里 
= 2a (4.63) 


c 


7 2 
02 一 gl 
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图 4-14 
DKE 的 散布 图 b) 类 %, 的 散布 图 。c) 类 %| 和 类 %@, 的 总 体 散布 图 


和 





oo f ilm -e ll’ 6 
7 = Lal Be + gl 2) (4.64) 


02 — Oj 62 — 01 
式 (4.62) 代 表 以 x. 为 圆心 和 为 半径 的 一 个 圆 。 令 a 定义 为 这 个 圆 内 的 区 域 。 对 当前 问题 
Bayes 分 类 规则 可 陈述 如 下 


如 果 似 然 比 A(x) 比 国 值 8 大 ， 则 将 观察 向 量 X 分 类 到 类 @ ， 否 则 就 分 类 到 类 @,。 
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| ,其 半径 为 +~ 


对 于 这 个 实验 的 特殊 参数 ， 我 们 有 贺 形 决策 边界 ， 其 圆心 位 于 x. = | 
2.34。 
用 。 来 表示 正确 分 类 结果 的 集合 ，。 表示 错误 分 类 结果 的 集合 。 根 据 Bayes 决策 规则 运 
行 的 分 类 器 错误 (错误 分 类 ) 概率 P, 是 
P, = p P(e1%,) + p P(e | ®%,) (4.65) 
这 里 P(e1%,) 是 给 定 分 类 输入 向 量 来 自 于 类 %, 时 的 错误 分 类 的 条 件 概率 ，P(e1, ) 类 似 ;p， 
和 p 分 别 为 类 ,和 6, 的 先 验 概率 。 对 于 我 们 的 问题 ， 可 以 从 数值 上 估计 概率 积分 ， 得 到 
Ple | €,) ~ 0.1056 
P(e | €,) ~ 0.2642 
又 有 pi = ps = 12， 所 以 错误 分 类 的 概率 是 
P, ~ 0.1849 


等 价 地 ， 正 确 分 类 的 概率 为 
P, =1- P, ~ 0.8151 


最 优 多 层 感知 器 的 实验 确定 


表 4-1 列 出 多 层 感知 器 的 各 种 可 变 参数 ， 包 括 一 个 单 层 隐藏 神经 元 ， 它 是 用 反 向 传播 算 
法 以 串 行 方式 训练 的 。 因 为 模式 分 类 的 最 终 目标 是 达到 可 接受 的 正确 分 类 率 ， 这 个 准则 用 于 
判断 何 时 MLP( 用 作 一 个 模式 分 类 器 ) 的 各 种 可 变 参 数 是 最 优 的 。 


表 4-1 多 层 感 知 器 的 可 变 参 数 





EB K 符 号 典型 变化 范围 
隐藏 神经 元 数目 mi (2, œ) 
学 习 率 参数 7 (0, 1) 
动量 常数 a (0, 1) 





隐藏 神经 元 的 最 优 数目 ”在 实际 处 理 时 对 于 决定 隐藏 神经 元 的 最 优 数 目 m 的 问题 ， 利 
用 的 准则 是 能 够 产生 与 Bayes 分 类 器 性 能 “接近 ”( 通 常 差 1% ) 的 隐藏 层 神经 元 的 最 小 数目 作 
为 最 优 隐 藏 神经 元 数目 。 因 此 ， 实 验 研究 开始 于 两 个 隐藏 层 神经 元 作为 起 始点 ， 模 拟 结果 列 
ER 4-2 中 。 因 为 第 一 组 模拟 的 功能 是 仅仅 确定 两 个 隐藏 层 神经 元 是 否 足够 ， 学 习 率 参数 1 
和 动量 常数 被 赋予 任意 平常 的 值 。 在 每 一 个 模拟 过 程 进行 时 ， 对 类 6,， 和 类 6, 以 相同 的 概 
率 随机 产生 Gauss 分 布 训练 例子 ， 它 们 通过 网 络 重复 循环 ， 每 一 个 网 络 循环 代表 一 个 回合 。 
回合 的 数目 的 选择 是 要 使 每 次 运行 的 训练 例子 总 数 为 一 个 常数 。 这 样 做 ， 由 于 训练 集 大 小 的 
变化 而 产生 的 潜在 影响 就 平均 掉 了 。 

表 4-2 两 个 隐藏 神经 元 的 模拟 结果 * 





运行 号 训练 集 数 目 回合 数目 均 方 误差 正确 分 类 概率 P, 
1 500 320 0.2375 80.36% 
2 2000 80 0.2341 80.33% 
3 8000 20 0.2244 80.47% 
$$ 8A 


* ”学 习 率 7=0,1 和 动量 a=0。 
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在 表 4-2 和 下 面 的 表 中 ， 均 方 误差 是 由 式 (4.53) 和 定义 的 函数 精确 计算 的 。 我 们 强调 在 这 
些 表 中 包括 均 方 误差 仅仅 把 它 当 作 一 个 记录 ， 因 为 一 个 小 的 均 方 误差 并 非 必然 隐 含 好 的 泛 化 
能 力 ( 即 对 从 来 没有 遇 到 的 数据 有 好 的 性 能 ) 。 
在 用 N 个 模式 训练 网 络 收敛 以 后 ， 正 确 分 类 的 概率 理论 上 可 以 计算 如 下 : 
P(c, N) = p P(c, N] @)+pPle,N| %,) (4.66) 
这 里 m = pm = 1/2， 且 


P(e, NI €) = hatt | €, dx (4.67) 


P(c,N1€,) = 1 -| A | 8, ) dx (4.68) 


而 Oy (NV) 是 决策 域 空间 区 域 ， 对 这 个 区 域 的 向 量 x( 代 表 随机 向 量 X 的 一 次 实现 ) 多 层 感知 器 
(用 NN 个 模式 训练 后 ) 将 它 分 到 类 @&, 。 这 个 区 域 通常 由 试验 发 现 ， 计 算 网 络 学 会 的 映射 函数 值 ， 
然后 运用 式 (4.55) 的 输出 决策 规则 就 可 以 找 出 这 个 区 域 。 不 幸 的 是 ，P(c,NI@, APC, NIG) 
的 数值 估计 是 一 个 问题 ， 因 为 描述 决策 域 9,(N) 的 封闭 形式 的 表达 式 并 不 容易 找到 。 

因此 ， 我 们 转 而 求助 于 实验 逼近 ， 涉 及 对 训练 后 的 多 层 感 知 器 检验 另外 的 独立 例子 集 ， 
这 些 例 子 是 也 是 独立 地 以 相同 概率 从 类 6， 和 类 %, 的 分 布 中 随机 抽取 的 。 令 4 为 随机 变量 表 
示 从 WN 个 实验 模式 中 正确 分 类 的 模式 数 。 因 此 比率 


PYF N 
是 一 个 随机 变量 ， 它 提供 了 网 络 实际 分 类 性 能 p 的 最 大 似 然 无 偏 估 计 。 假 设 关于 N 对 输 
人 -输出 而 言 p 是 一 个 常数 ， 我 们 可 以 将 Chemof 界 (Devroye,1991) 用 于 p 的 估计 p,， 得 到 
P(Ipr-pl>s)<2exp(-~-2eN) = 8 
MF e=0.01, 8=0.01( BN LA 99% 的 概率 保证 对 p 的 估计 具有 给 定 的 容忍 度 ) 应 用 Chemoff 界 
得 到 N~26 500。 因 此 ， 我 们 挑选 一 个 N = 32 000 的 测试 集 。 表 4-2 的 最 后 一 列 给 出 这 个 测 
试 集 的 正确 分 类 概率 的 估计 ， 每 一 个 结果 都 为 试验 的 十 个 独立 实现 的 平均 值 。 

TER 4-2 中 列 出 的 有 两 个 隐藏 层 的 多 层 感知 器 的 分 类 性 能 已 经 合理 地 接近 于 Bayes 性 能 
P, = 81.51% 。 在 这 种 基础 上 ， 我 们 可 以 总 结 出 对 于 这 里 描述 的 模式 分 类 问题 使 用 两 个 隐藏 
神经 元 是 合适 的 。 为 了 强调 这 个 结论 ， 在 表 4-3 中 列 出 有 四 个 隐藏 神经 元 的 感知 器 的 模拟 结 
果 ， 网 络 其 他 一 些 参数 的 值 保 持 不 变 。 虽 然 在 表 4-3 中 对 于 4 个 隐藏 神经 元 均 方 误差 比 表 
4-2 中 对 2 个 神经 元 的 略 小 ， 但 是 正确 分 类 的 平均 率 并 没有 改进 ; 事实 上 ， 还 略微 差 了 一 点 。 
对 于 这 里 描述 的 计算 机 实验 的 以 后 部 分 ， 隐 藏 层 的 数目 保持 为 2。 

表 4-3 ”使 用 四 个 隐藏 神经 元 的 多 层 感 知 器 的 模拟 结果 * 





运行 号 训练 集 数 目 回合 数目 均 方 误差 正确 分 类 概率 P. 
1 500 320 0.2199 80.80% 
2 2000 80 0.2108 80.81% 
3 8000 20 0.2142 80.19% 





* ”学 习 率 7=0.1 Ma a=0. 
最 优 学 习 和 动量 常数 ”对 于 学 习 率 参数 1 和 动量 常数 的 最 优 值 ， 我 们 可 以 使 用 下 面 三 
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个 定义 中 的 任何 一 个 : 
1. 最 优 的 和 平均 上 使 得 网 络 收敛 于 误差 曲面 上 局 部 最 小 所 需 回合 数目 最 小 。 
2. 最 优 的 7 和 平均 上 或 最 坏 情 况 下 使 得 网 络 收敛 于 误差 曲面 上 全 局 最 小 所 需 回合 数目 
最 小 。 
3. 最 优 的 ?和 平均 上 以 最 少 的 回合 数 使 得 网 络 收敛 于 在 整个 输入 空间 具有 最 好 的 泛 化 
性 能 的 网 络 配置 。 
这 里 使 用 的 术语 “平均 ”和 “最 坏 情况 ” 指 的 是 训练 输入 - 输出 对 的 分 布 。 定 义 3 实际 上 是 理想 
情况 ; 然而 很 难 应 用 因为 在 网 络 训练 过 程 中 最 小 化 均 方 差 通常 是 最 优化 的 数学 准则 ， 而 且 正 
如 前 面 所 说 ， 在 一 个 训练 集 上 较 小 的 均 方 差 并 不 意味 着 更 好 的 泛 化 能 力 。 从 研究 的 观点 来 
看 ,定义 2 比 定义 1 更 有 意义 。 比 如 在 Luo(1991) 中 给 出 关于 学 习 率 的 最 佳 适应 值 的 严格 
结果 ， 学 习 率 ! 的 最 佳 适应 值 指使 得 多 层 感知 器 估计 全 局 最 优 突 触 权 值 矩 阵 达到 期 望 的 精度 
所 使 用 的 回合 数 最 少 的 学 习 率 了 的 值 ， 虽 然 只 是 对 线性 神经 元 这 种 特殊 情况 。 然 而 通常 在 使 
用 定义 1 时 ,试探 方法 和 实验 性 的 过 程 决 定 了 1 和 a 的 最 优选 择 。 因 此 对 于 这 里 描述 的 实 
验 ， 在 某 种 意义 上 我 们 认为 是 在 定义 1 的 意义 下 最 优 。 
使 用 一 个 多 层 感 知 器 和 两 个 隐藏 神经 元 ， 对 学 习 率 参数 n€ 10.01,0.1,0.5,0.9| 和 动量 
常数 aE 10.0,0.1,0.5,0.91 的 组 合 进行 模拟 以 观察 它们 在 网 络 收敛 上 的 效果 。 每 个 组 合用 相 
同 的 初始 随机 权 值 集 和 相同 的 SOO 个 样本 集 来 训练 ， 以 便 实验 结果 可 以 直接 比较 。 学 习 过 程 
连续 进行 700 回合 后 结束 ; 这 个 训练 长 度 对 于 反 向 传播 算法 来 说 被 认为 是 在 误差 曲面 上 足以 
达到 局 部 最 小 值 。 这 样 计算 的 总 体 - 平均 学 习 曲 线 如 图 4-15a - 4-15d 所 示 ， 这 些 图 是 以 了 
来 单独 分 组 的 。 
这 里 显示 的 实验 性 学 习 曲 线 指出 如 下 的 趋势 : 
。 通常 当 一 个 小 的 学 习 率 参数 1 产生 一 个 较 慢 的 收敛 时 ， 它 可 以 比 一 个 大 的 ?找到 “更 
深 ” 的 局 部 最 小 值 (在 误差 曲面 中 )。 这 个 结果 在 直观 上 是 令 人 满意 的 ， 因 为 一 个 小 的 
1 意味 着 一 个 最 小 值 的 搜索 将 会 比 在 大 的 1 的 情况 下 覆盖 更 多 的 误差 曲面 。 

。 4yo, 使 用 o>1 UOC INR. HAH, Yq lit, VER a>0 来 保证 
学 习 的 稳定 性 。 
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图 4-15 对 不 同 的 动量 a 和 学 习 率 参数 的 下 列 值 的 总 体 平均 学 习 曲 线 : 
am=0.01 b)n=0.1 c)n=0.5 d)n=0.9 








[196] 
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。 常数 1= 10.5,0.9| 和 a=0.9 的 使 用 导致 在 学 习 过 程 中 均 方 差 的 振荡 以 及 在 收敛 时 产 
生 更 大 的 均 方差 值 ， 而 这 两 种 情况 都 不 是 期 望 的 效果 。 

在 图 4-16 中 ,我 们 显示 “最 佳 ” 的 学 习 曲 线 ， 这 些 学 习 曲 线 是 从 图 4- 16 中 各 组 学 习 曲 线 中 选 
择 出 来 的 ， 以 便 决定 一 个 整体 上 的 最 佳 学 习 曲 线 ， 这 里 的 “最 佳 " 是 从 前 面 所 描述 的 点 1 意义 
上 定义 的 。 图 4- 16 显示 最 优 学 习 率 参数 各 大 约 为 0.1， 而 最 优 动量 常数 a 大 约 为 0.5。 因 
此 ， 表 4-4 总 结 在 其 余 实 验 中 使 用 的 网 络 参数 最 优 值 。 图 4- 16 中 每 条 曲线 的 最 终 均 方 误差 
在 7 和 a 的 范围 上 变化 并 不 明显 这 一 事实 ， 暗 示 该 问题 有 一 个 “表现 良好 ”( 即 相当 平滑 ) 的 误 
差 曲面 。 





学 习 率 参数 ,y ”动量 常数 ,a 





图 4-16 从 图 4-15 的 4 部 分 挑选 出 的 最 好 学 习 曲 线 
R44 最 优 的 多 层 感 知 器 设置 








2 数 符 号 值 
神经 元 数目 Mop 2 
学 习 率 参数 Tope 0.1 

动量 常数 Oot 0.5 


.最 优 网 络 设计 的 评价 ”给 定 的 “最 优 ”多 层 感知 器 具有 如 表 4-4 总 结 的 参数 ， 求 出 确定 决 
策 边界 、 总 体 -平均 学 习 曲 线 以 及 正确 分 类 的 概率 的 最 终 网 络 的 值 。 因 为 训练 集 有 限 ， 具 有 
最 优 参 数 所 学 得 的 网 络 函 数 在 本 质 上 是 “随机 的 "。 因 此 这 些 性 能 度量 是 在 20 个 独立 训练 网 
络 之 上 的 总 体 平均 。 每 个 训练 集 由 1000 个 样本 组 成 ， 这 1000 个 样本 是 从 %, FIG, 类 的 分 布 
中 以 相同 概率 抽取 出 米 的 ， 并 以 随机 顺序 呈现 给 网 络 。 和 以 前 一 样 ， 训 练 持 续 700 个 回合 ， 
为 了 正确 分 类 概率 的 实验 性 确定 ， 先 前 曾 使 用 过 的 32 000 个 例子 的 测试 集 再 次 被 使 用 。 

图 4- 17a 显示 在 总 体 为 20 的 3 个 网 络 的 3 个 最 佳 决策 边界 ; 图 4- 17b 显示 在 同样 的 总 体 
中 另外 3 个 网 络 的 3 个 最 差 决 策 边界 。 阴 影 ( 圆 ) 的 Bayes 决策 边界 包含 在 两 个 图 中 以 便 参考 。 
从 这 些 图 我 们 观察 到 由 反 向 传播 算法 构建 的 决策 边界 相对 于 属于 类 %, RE, 的 区 域 而 言 是 凸 
的 ， 这 里 属于 类 4, Re, 的 区 域 是 指 决策 边界 将 观察 向 量 x 归 类 到 %, 或 6, 类 的 区 域 。 
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最 优 决策 边界 = 


b) 
图 4-17 
a)3 个 分 类 精度 最 好 的 决策 边界 图 ; 80.39% , 80.40% 和 80.43% 
b)3 个 分 类 精度 最 差 的 决策 边界 图 : 77.24%, 73.01% 和 71.59% 
由 训练 样本 计算 出 来 的 性 能 度量 的 总 体 统计 特性 、 正 确 分 类 概率 以 及 最 终 均 方差 罗 列 于 
表 4-5 中 。 对 最 佳 Bayes 分 类 器 的 正确 分 类 概率 为 81.51% 。 
表 4-5 性 能 度量 的 总 体 统计 特性 (样本 数 = 20) 
性 能 度量 均 Of 标准 偏差 

正确 分 类 概率 79.70% 0.44% 
最 终 均 方 误差 0.2277 0.0118 
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4.9 特征 检测 


在 采用 反 向 传播 算法 学 习 的 多 层 感 知 器 的 运算 中 ， 隐 藏 神经 元 具有 重要 的 作用 ， 这 是 因 
为 隐藏 神经 元 扮演 着 特征 检测 器 的 角色 。 随 着 学 习 过 程 的 进行 ， 隐 泸 神 经 元 逐渐 “发 现 ” 表 征 
训练 数据 的 潜在 特征 。 它 们 之 所 以 这 样 是 通过 执行 一 种 非 线 性 变换 将 输入 数据 变换 到 一 种 称 
之 为 隐藏 空间 或 特征 空间 的 新 空间 ， 隐 藏 空间 或 特征 空间 这 两 个 术语 在 本 书 中 互 换 使 用 。 例 
如 在 模式 分 类 任务 下 新 空间 中 感 兴趣 的 类 可 能 比 最 初 的 输入 空间 更 易 彼 此 分 离 。4.5 节 所 讨 
论 的 XOR 问题 很 好 的 说 明了 这 一 点 。 

为 了 把 问题 放置 到 数学 环境 下 分 析 ， 假 设 一 个 多 层 感 知 器 有 一 个 包含 m 个 隐藏 神经 元 
的 非 线 性 层 ， 以 及 一 个 包含 m = M 个 输出 神经 元 的 线性 层 。 输 出 层 中 选择 线性 神经 元 的 动 
机 是 希望 集中 注意 力 于 隐藏 神经 元 对 多 层 感知 器 运行 的 作用 。 对 网 络 突 触 权 值 进行 调节 ， 使 
网 络 的 目标 输出 与 实际 输出 之 间 的 均 方 误差 达到 最 小 化 ， 这 里 的 目标 输出 是 期 望 响 应 ， 实 际 
输出 是 指 为 了 响应 m 维 输入 向 量 (模式 )， 用 对 总 共 N 个 模式 执行 总 体 平均 产生 的 输出 。 今 
(nn) 为 隐藏 神经 元 j 在 输入 模式 n 下 产生 的 输出 。 由 于 艇 入 每 个 隐藏 神 经 元 的 sigmoid 激活 
消 数 ，z(n) 是 应 用 于 网 络 输入 层 的 模式 (向 量 ) 的 一 个 非 线性 函数 。 


在 输出 层 中 神经 元 有 的 输出 为 
a k = 1,2,-°,M 
Y(n) = 23 wz (n), n = 1,2, N (4.69) 
这 里 ww 表示 应 用 于 神经 元 有 的 偏 置 。 被 最 小 化 的 代价 函数 为 
6, = wy 2 2 de(n) ~ ¥,(n)) (4.70) 


注意 这 里 假定 使 用 运行 的 集中 方式 。 利 用 式 (4.69) 和 (4.70)， 容 易 对 代价 函数 %, 以 紧凑 矩阵 
形式 重 写 为 
€. = sy lD- wzl? (4.71) 
这 里 W 是 网 络 输出 层 突 触 权 值 的 Mx m 矩阵 。 和 矩阵 Z 是 隐藏 神经 元 输出 ( 减 去 了 它们 的 平 
均值 ) 的 m, x N 矩阵 ， 它 通过 应 用 于 网 络 输 入 层 的 NN 个 输入 模式 生成 ， 也 即 
Z = |(z(n)- pe sf = 1.2.00, mirn = 1,2,.,N| 
这 里 p Feb 2, (n ASP. PAE, ERE Df Sk BLD A Ha E ERS Bt I G EEn Z ) 9 


M x NÆRE, th BD 
D = {(d,(n) - Ha, sk = 1,2,°°°,Msn = 1,2,°°,N} 


这 里 py 是 di(n) 的 均值 。 认 识 到 由 式 (4.70) 定 义 的 %, 的 最 小 化 是 一 个 线性 最 小 平方 问 
题 ， 其 解 由 


We DZ’ (4.72) 
给 出 ,这 里 多 * 是 多 矩阵 的 伪 逆 矩阵 。%。 最 小 值 如 下 (见习 题 4.7): 
Bann = al DD" - BZ"(ZZ") + 2D"] (4.73) 


这 里 tr[* ] 表 示 迹 算 子 。 因 为 用 矩阵 DD 表示 的 目标 模式 固定 ， 根 据 多 层 感 知 器 的 突 触 权 值 来 
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EMER KRE ,等 价 于 最 大 化 判别 函数 (Webb and Lowe, 1990) 
D = tr[C C] (4.74) 
这 里 年 阵 C, AC, 定义 如 下 : 
。 m x mi RARE C, 是 根据 N 输入 模式 得 到 的 隐藏 神经 元 输出 的 总 体 协 方差 矩阵 
C, = ZZ" (4.75) 
FEE C 是 C, WAXER, 
。 mi xm EEC, 定义 为 
C, = ZD7DZ7 (4,76) 
注意 由 式 (4.74) 定 义 的 判别 函数 9 完全 由 多 层 感知 器 的 隐藏 神经 元 决定 。 并 且 没 有 对 组 成 非 
线性 变换 的 隐藏 层 的 层 数 有 所 限制 ， 其 中 非 线性 变换 负责 生成 判别 函数 9。 在 隐藏 层 数 目 大 
于 ! 的 多 层 感知 器 中 ， 和 矩阵 Z 表示 由 最 后 隐藏 神经 元 定义 的 空间 中 全 部 模式 集 。 

为 了 对 矩阵 C, 做 出 解释 ， 考 虑 一 个 M 选 1(one-from-M) 编 码 格 式 的 特殊 选择 (Webb and 
Lowe,1990 )。 就 是 说 ， 若 所 选 模 式 属于 那个 类 ， 则 对 该 模式 的 目标 值 (期 望 响应 ) 输 出 为 1， 
否则 为 0， 如 下 所 示 : 

0 


ol 
d(n) =| 1 | 一 第 个 元 素 ， d(n) E$, 
0 
0 
因此 ， 假 如 有 M 个 类 6, , k=1, 2, =, M, HOP ON, 个 模式 在 类 6, 中 并 且 有 
SIN, = N 


我 们 因而 可 以 对 这 个 特殊 编码 方案 将 矩阵 C, 展开 为 如 下 形式 ; 


C, = 2 Ni (Het — P) (we, - BL)” (4.77) 

这 里 m x 1 的 向 量 p , FER oo Ha tHe FARE, PN, 个 模式 的 向 量 平 均值 ， 而 向 量 p, 

是 隐藏 神经 元 输出 关于 NN 个 输入 向 量 的 向 量 平 均值 。 根 据 式 (4.77)， 我 们 可 以 将 C, 解释 为 
隐藏 层 输出 的 加 权 类 间 协 方差 矩阵 。 

因此 ， 对 于 一 个 MM 选 1 的 编码 方案 ， 多 层 感 知 器 最 大 化 一 个 判别 函数 ， 该 判别 函数 为 

加 权 类 间 协 方差 矩阵 和 总 体 协 方差 矩阵 的 伪 逆 这 两 个 矩阵 乘积 的 迹 。 这 个 结果 非常 有 趣 ， 这 

是 因为 它 说 明 一 个 由 反 向 传播 学 习 的 多 层 感应 器 是 如 何 融 合 单个 类 中 的 样本 比例 作为 先 验 知 


W 


ZNO 


和 Fisher 线性 判别 式 的 关系 


由 式 (4.74) 定 义 的 判别 函数 9 对 于 多 层 感知 器 来 说 是 惟一 的 ， 它 与 Fisher 的 线性 判别 式 
非常 相似 ，Fisher 的 线性 判别 式 描述 一 个 由 多 维 问题 到 一 维 问题 的 线性 变换 。 假 设 变量 y 由 
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一 个 输入 向 量 x 的 元 素 线性 组 合 而 成 ， 也 就 是 说 y 定义 为 x 和 可 调 参 数 w( 包 括 一 个 偏 置 为 
其 第 一 个 元 素 ) 的 向 量 的 内 积 ， 所 示 如 下 : 

y= Wx 
向 量 x 是 从 类 %&, MARC, 总 体 中 的 一 个 抽取 出 来 的 ， 类 %, MAC, 的 总 体 由 于 它们 的 均值 向 
Bye, Mp, 不 同 而 区 别 。 区 别 这 两 个 类 的 Fisher 准则 定义 如 下 : 
w'C,w 
w'C,w 





J(w) = 


这 里 C, 是 类 间 协 方差 矩阵 ， 定 义 为 
C, = (œ - wh) (mh - m)” 
而 C, 是 总 的 类 内 协 方差 矩阵 ， 和 定义 为 


201 C = D>) (x, - w(x, - m7 + D (x, - we) (x, — me)? 
n€&, n€&, 


类 内 协 方差 矩阵 C, 与 训练 集 的 样本 协 方差 矩阵 成 比 列 。 它 是 对 称 的 而 且 非 负 定 ， 在 训练 集 
足够 大 时 通常 是 非 奇 异 矩 阵 。 类 间 协 方差 矩阵 C, 也 是 对 称 和 非 负 定 的 ， 但 它 是 奇异 矩阵 。 
一 个 特别 有 趣 的 性 质 是 矩阵 乘积 Cw 总 是 均值 向 量 差 p, -m 的 方向 。 这 个 特性 由 C, 定义 
直接 得 出 。 
我 们 知道 定义 J(w) 的 表达 式 通 称 为 广义 Rayleigh 商 数 。 最 大 化 J(w) 的 向 量 w 必须 满足 
如 下 条 件 : 
Cw = XCw (4.78) 
(4.78) E—T) CARMEL, WER Eee Cw BEES p -h 
的 方向 ， 我 们 发 现 式 (4.78) 的 解 为 
o w=} -w) (4.79) 
该 解 称 为 Fisher 的 线性 判别 式 (Duda and Hart, 1973). 
回 到 特征 检测 的 问题 ， 回 忆 式 (4.74) 的 判别 函数 多 和 模式 变换 到 网 络 隐藏 层 空间 的 类 间 
协 方差 矩阵 及 总 体 协 方差 矩阵 有 关 。 判 别 函数 % 起 着 与 Fisher 线性 判别 式 相 同 的 作用 ， 这 就 
是 为 什么 神经 网 络 可 以 非常 好 的 执行 模式 分 类 任务 的 理由 。 


4.10 反 向 传播 和 微分 


反 向 传播 是 用 于 在 多 层 前 馈 网 络 的 权 
值 空间 中 实现 梯度 下 降 的 一 种 特殊 技巧 。 
其 基本 思想 是 有 效 计 算 一 个 近似 函数 
PCw,x) 的 偏 导数 ， 对 于 给 定 输入 向 量 x 的 
值 近似 函数 F(w,x) 由 网 络 根据 可 调整 权 
值 向 量 w 的 所 有 元 素 实 现 。 这 一 点 决定 了 
反 向 传播 算法 的 计算 能 力 5 。 

进一步 ， 假 定 一 个 多 层 感应 器 有 一 个 


mo 个 节点 的 输入 层 ， 两 个 隐藏 层 ， 以 及 
[202] 一 个 单一 的 输出 神经 元 ， 如 图 4-18 所 示 。 EAS 县 有 两 个 隐 涛 层 和 一 个 输出 层 的 多 层 感知 名 





输入 层 。 第 一 隐藏 层 OBRE 。 ”输出 层 
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权 值 向 量 w 的 元 素 根据 层 数 ( 从 第 一 一 个 隐藏 层 开始 /然后 根据 居 站 的 匀 经 元 和 最 后 根据 神经 
元 中 突 触 的 数目 来 排序 。 令 w 包 表示 从 神经 元 ; 到 层 1=0，1，2,… 中 的 神经 元 j 的 突 触 权 
值 。 对 于 ! =1， 对 应 于 第 一 个 隐藏 层 ， 序 号 i 表示 一 个 源 结 点 而 不 是 一 个 神经 元 ; 对 于 I= 
3， 对 应 于 图 4-18 的 输出 层 ， 我 们 有 j= 1。 对 于 一 个 特定 的 输入 向 量 x= [xi, xi,… ,xn l 
我 们 希望 计算 函数 F(w,x) 对 向 量 w 的 所 有 元 素 的 导数 值 。 注 意 对 于 1 = 2( 即 第 二 个 隐藏 
JZ), BM F(w,x) 具 有 类 似 于 式 (4.69) 右 边 的 形式 。 我 们 包含 权 值 向 量 w 作为 函数 下 的 变 
量 ， 并 将 注意 力 放 在 其 上 。 

图 4- 18 的 多 层 感知 器 被 结构 % (表示 一 个 离散 参数 ) 和 一 个 权 值 向 量 w( 由 连续 的 元 素 组 
RBM. SA"? 表示 从 输入 层 (1! = 0) 到 层 1=1，2，3 内 的 节点 了 所 扩展 成 的 部 分 结构 。 
因此 ， 我 们 可 以 写成 





F(w,x) = o(°) (4.80) 

这 里 p 是 激活 函数 。 然 而 ，%? 仅仅 被 认为 是 一 个 结构 符号 而 不 是 一 个 变量 ， 因 此 ， 改 写 式 
(4.1)、(4.2) 、(4.11) 和 (4.23) 使 之 在 这 种 情况 下 可 用 ， 我 们 得 到 如 下 结果 : 

oF (Ww, x) 


ay TY (A? JAL) (4.81) 

1k 

OFM x) =¢ AP Jel (sd? JAAP ) w? (4,82) 
k 

E x) =¢ (sa jg (A )x, [ Dung , (A? )w 2] (4. 83) 


这 里 g 是 非 线性 p RT AMA He PR, x 是 输入 向 量 x 的 第 i 个 元 素 。 用 相似 的 方法 我 
们 可 以 得 到 一 般 的 具有 更 多 的 隐藏 层 和 在 输出 层 上 有 更 多 神经 元 的 网 络 的 偏 导 等 式 。 

式 (4.81) 至 (4.83) 对 于 计算 网 络 函 数 F(w,x) 关 于 权 值 向 量 w 的 元 素 变化 的 灵敏 度 提供 
了 基础 。 令 w 表示 权 值 向 量 w 的 元 素 ，F(w,x) 关 于 o 的 灵敏 度 定义 为 


Se = Foa OEV 
由 于 这 个 原因 我 们 把 图 4-7 中 信号 流 图 的 较 低 部 分 称 为 “灵敏 度 图 "。 


Jacobi 矩阵 


S 下 表示 一 个 多 层 感 知 器 自由 参数 ( 即 突 触 权 值 和 偏 置 ) 的 总 数 ， 参 数 按 形成 权 值 向 量 
w 的 方式 排序 。 令 N 表示 用 于 训练 网 络 的 样本 总 数 。 对 于 训练 集中 的 给 定 样 本 x(n)， 利 用 
反 向 传播 我 们 可 以 计算 近似 函数 Fiw,x(n)] 对 权 值 向 量 w 元 素 的 偏 导 数 。 对 于 n=l, 
2，…,WN 重复 上 述 计算 ， 最 后 得 到 一 个 N x WSR, KERMA SERA 
的 在 x(n) 处 Jacobi 矩阵 Jo Jacobi 矩阵 每 列 对 应 于 训练 集中 的 一 个 样本 。 

实验 证 据 显示 许多 神经 网 络 训练 问题 是 内 在 “病态 的 ”， 导 致 Jacobi 矩阵 J 几乎 总 是 秩 亏 
474% (Saarinen et.al. ,1991 )。 和 矩阵 的 秩 是 矩阵 的 列 或 行 的 线性 无 关 组 的 数目 中 最 小 的 一 个 。 
假如 秩 小 于 min( N, W), RATX Jacobi HM J 是 秩 亏 损 的 。 在 Jacobi 矩阵 中 任何 的 秩 亏 损 导 
致 反 向 传播 算法 仅仅 得 到 可 能 搜寻 方向 上 的 部 分 信息 ， 从 而 导致 训练 时 间 过 长 。 


4.11 Hessian 和 矩阵 
代价 函数 各, (w) A) Hessian EEN HRR, EAS, (w) 对 权 值 向 量 w 的 二 阶 导 数 ， 显 
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示 为 
_ & Cw) 
ow 

Hessian 矩阵 在 研究 神经 网 络 中 起 着 重要 作用 ; 我 们 尤其 要 提出 以 下 几 点 号 : 

1. Hessian 矩阵 的 特征 值 对 反 向 传播 学 习 动 力学 有 着 深远 的 影响 ; 

2. Hessian 矩阵 的 逆 为 从 一 个 多 层 感 知 器 中 修剪 ( 即 删 除 ) 不 重要 的 突 触 权 值 提供 基础 ， 
如 4.15 节 所 讨论 ; 

3.Hessian 矩阵 是 形成 二 阶 优化 方法 的 基础 ， 二 阶 优化 方法 可 作为 反 向 传播 学 习 的 替代 ， 
如 4.18 节 所 讨论 。 

在 4.15 节 给 出 一 个 计算 Hessian SEER EE” ， 在 本 节 中 我 们 将 注意 放 在 点 1。 

在 第 3 章 我 们 说 明了 Hessian 矩阵 的 特征 结构 对 LMS 算法 的 收敛 性 质 有 重大 影响 。 它 对 
反 向 传播 算法 也 一 样 ， 但 是 更 为 复杂 。 典 型 地 用 反 向 传播 算法 来 训练 的 多 层 感 知 器 其 误差 曲 
面 的 Hessian 矩阵 有 如 下 的 特征 值 组 合 (LeCun, et al. ,1991;LeCun,1993): 

。 小 特征 值 的 数目 很 少 ; 

。 中 等 大 小 的 特征 值 的 数目 很 多 ; 

。 大 特征 值 的 数目 很 少 。 

影响 这 个 组 合 的 因素 可 分 组 如 下 : 

。 非 零 均值 的 输入 信号 或 非 零 均 值 的 神经 元 诱导 输出 信号 。 

。 输入 信和 号 向 量 的 元 素 之 间 的 相关 性 和 神经 元 诱导 输出 信号 之 间 的 相关 性 。 

。 代价 函数 对 于 网 络 中 神经 元 突 触 权 值 的 二 阶 导 数 随 着 我 们 从 一 层 到 下 一 层 进行 处 理 

有 很 宽 的 变化 范围 。 在 较 低 的 层 中 二 阶 导数 通常 更 小 ， 这 样 突 触 权 值 在 第 一 隐藏 层 
的 学 习 很 慢 ， 但 在 最 后 一 层 就 学 习 较 快 。 

从 第 3 章 我 们 可 以 回忆 起 LMS 算法 的 学 习 时 间 对 条 件数 .人 /的 变化 很 灵敏 ， 这 里 入。。 
是 Hessian 矩阵 最 大 的 特征 值 ， 而 和 ,是 Hessian 矩阵 最 小 的 非 0 特征 值 。 实 验 结果 显示 反 向 
传播 算法 有 着 相同 的 结果 ， 反 向 传播 算法 是 LMS 算法 的 一 个 推广 。 对 于 非 零 均值 的 输入 ， 
BY ECE Am Amin 比 相应 的 零 均 值 输入 的 比值 要 大 : 输入 的 均值 越 大 ， 比 值 /Ns 越 大 (见习 
题 3.10)。 这 个 观察 对 反 向 传播 学 习 动 力学 有 着 重要 意义 。 

为 了 学 习 时 间 最 小 化 ， 应 避免 使 用 非 零 均值 的 输入 。 现 在 ， 就 考虑 应 用 于 一 个 多 层 感知 
器 的 第 一 隐藏 层 的 神经 元 的 信号 向 量 x( 即 应 用 于 输入 层 的 信号 向 量 ) 而 论 ，x 应 用 于 网 络 之 
前 先 减 去 它 的 每 个 元 素 一 个 平均 值 是 很 容易 的 。 但 是 将 信号 应 用 到 剩 下 的 隐藏 层 和 输出 层 中 
的 神经 元 情况 又 会 如 何 呢 ? 这 个 问题 的 答案 在 于 网 络 中 使 用 的 激活 函数 的 类 型 。 假 如 激励 函 
数 是 非 对 称 的 (比如 logistic 函数 )， 每 个 神经 元 的 输出 界 于 [0,1] 区 间 。 这 样 的 选择 为 那些 位 
于 网 络 中 第 一 隐藏 层 之 后 的 神经 元 带 来 了 一 个 系统 偏差 源 。 为 了 克服 这 一 问题 我 们 需要 利用 
一 个 如 同 双 曲 正切 函数 的 反对 称 函 数 。 对 于 后 一 种 选择 ， 每 个 神经 元 的 输出 可 以 是 区 间 
[ -1,1] 中 的 任何 正 值 和 负 值 ， 在 这 种 情况 下 ， 它 的 均值 可 能 为 0。 假 如 网 络 连接 数 很 大 ， 
用 反对 称 激活 函数 的 反 向 传播 学 习 可 能 比 一 个 使 用 非 对 称 激 活 函 数 的 相似 过 程 有 着 更 快 的 收 
人 化， 对 此 也 被 经 验证 明 (LeCun et al. ,1991 ) ， 这 为 4.6 节 描 述 的 启发 3 提供 合理 性 依据 。 . 


4.12 Z 
在 反 向 传播 学 习 中 ， 我们 一 般 从 一 个 训练 样本 开始 ， 而 且 通 过 向 网 络 中 装载 (编码 ) 尽 可 


(4.84) 
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能 多 的 训练 样本 来 使 用 反 向 传播 算法 计算 一 个 多 层 感知 器 的 突 触 权 值 。 希 望 这 样 设计 的 神经 
网 络 可 以 泛 化 (推广 )。 对 于 从 未 在 生成 或 训练 网 络 时 使 用 过 的 测试 数据 ， 若 网 络 计算 的 输 
人 -输出 映射 对 它们 来 说 是 正确 (或 接近 于 正确 ) 的 ， 我 们 认为 网 络 的 泛 化 是 很 好 的 ; 术语 
之 化 "是 从 心理 学 中 借用 来 的 。 这 里 假定 测试 数据 是 从 用 于 生成 训练 数据 的 相同 数据 集 抽 


取出 来 的 。 

学 习 过 程 ( 即 神经 网 络 的 训 
练 ) 可 以 看 作 是 一 个 “曲线 拟 合 ” 
的 问题 。 网 络 本 身 可 以 被 简单 地 
认为 是 一 个 非 线 性 输入 -输出 映 
射 。 这 个 观点 允许 我 们 不 再 把 神 
经 网 络 的 泛 化 看 作 是 它 的 一 个 神 
秘 的 特性 ， 而 是 作为 相当 简单 的 
关于 输入 数据 非 线性 插值 的 结果 
(Wieland and Leighton, 1987 )。 这 
种 网 络 能 够 完成 有 意义 的 插值 过 
程 主要 是 因为 具有 连续 激活 函数 
的 多 层 感 知 器 导致 输出 函数 同样 
也 是 连续 的 。 

图 4- 19a 表明 一 个 假定 的 网 
络 是 如 何 进行 泛 化 的 。 图 中 描绘 
的 曲线 所 代表 的 非 线 性 输入 / 输 
出 映射 是 由 网 络 通 过 对 标 有 “ 训 
练 数据 "的 点 进行 学 习 的 结果 来 
计算 的 。 曲 线 上 标 有 “ 泛 化 ”的 点 
就 是 由 这 个 网 络 完成 的 插值 结 
Ro 

一 个 神经 网 络 设计 得 具有 很 
好 泛 化 能 力 ， 即 使 在 输入 与 训练 
网 络 的 样本 稍 有 不 同 的 情况 下 它 
也 能 够 产生 一 个 正确 的 输入 / 输 
出 映射 ， 这 正如 图 中 所 显示 的 一 
样 。 然 而 ， 当 一 个 神经 网 络 对 太 
多 的 样本 进行 学 习 的 时 候 ， 它 可 





非 线性 映射 
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训练 数据 





非 线性 映射 
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图 4- 19 


a) 恰 当地 拟 合 数据 (良好 泛 化 ) b) 过 拟 合 数据 ( 差 的 泛 化 ) 


能 会 完成 对 训练 数据 的 记忆 。 这 种 情况 可 能 会 出 现在 找到 一 个 存在 于 训练 数据 中 但 对 于 将 要 
建 模 的 固有 函数 却 为 假 的 特征 (例如 ， 由 于 噪声 ) 的 时 候 。 这 种 现象 称 为 "过 拟 合 " 或 者 “过 训 
练 "。 当 网 络 被 过 训练 的 时 候 ， 它 就 失去 了 在 相近 输入 /输出 模式 之 间 进 行 泛 化 的 能 力 。 
通常 ， 用 这 种 方法 把 数据 装载 到 多 层 感知 器 要 求 使 用 比 实际 需要 更 多 的 隐藏 层 神经 元 ， 
结果 导致 在 网 络 的 突 触 权 值 中 存储 了 输入 空间 中 由 于 噪声 引起 的 非 期 望 因素 。 例 如 ， 在 图 
4-19a 相同 的 数据 条 件 下 ， 图 4- 19b 显示 由 于 神经 网 络 中 的 记忆 导致 泛 化 不 佳 是 如 何 出 现 的 
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例子 。“ 记 忆 ?” 本 质 上 是 一 个 “查询 表 "， 这 意味 着 由 神经 网 络 计算 的 输入 /输出 映射 是 非 光滑 
的 。 正 如 在 Poggio and Girosi(1990a) 文 章 中 指出 的 那样 ， 输 入 /输出 映射 的 光滑 性 和 如 Occam 
ŽI JJ (Occam’s razor) 之 类 的 模型 选择 标准 紧密 相关 ， 在 没有 相反 的 先 验 知识 情况 下 它 的 核心 
本 质 是 选择 “最 简单 “函数 。 针 对 于 我 们 给 出 的 讨论 ， 最 简单 函数 是 指 在 给 定 的 误差 标准 下 盟 
近 一 个 给 定 映射 的 函数 中 最 光滑 的 函数 ， 因 为 这 个 选择 总 体 上 要 求 最 少 的 计算 资源 。 依 赖 于 
研究 现象 的 规模 范围 ， 光 滑 性 在 许多 应 用 上 同样 是 自然 的 。 因 而 为 不 适 定 的 输入 /输出 关系 
寻找 一 个 光滑 的 非 线 性 映射 是 重要 的 ， 使 得 网 络 能 够 根据 训练 模式 将 新 模式 正确 地 分 类 
(Wieland and Leighton, 1987)。 


为 有 效 的 泛 化 给 出 充分 的 训练 集 大 小 


下 面 的 三 个 因素 是 对 泛 化 产生 影响 :(1) 训 练 集 的 大 小 ， 以 及 它 如 何 表 示 感 兴趣 的 环境 ; 
(2) 神 经 网 络 的 体系 结构 ;(3) 当 前 问题 的 物理 复杂 度 。 无 疑 地 ， 我 们 无 法 对 后 者 进行 控制 。 
在 男 外 的 两 个 因素 中 ， 我 们 可 以 从 两 个 不 同 的 方面 考察 泛 化 问题 (Hush and Home, 1993) : 

。 网 络 的 体系 结构 是 固定 的 (可 期 望 与 固有 问题 的 物理 复杂 度 一 致 ) ， 需 要 解决 的 问题 

是 决定 一 个 产生 好 的 泛 化 必须 的 训练 集 的 大 小 。 
。 训练 集 的 大 小 是 固定 的 ， 感 兴趣 的 问题 是 决定 最 好 的 网 络 体系 结构 使 得 具有 好 的 泛 
化 。 
在 它们 各 自 的 方法 里 这 两 种 观点 都 是 合理 的 。 当 前 我 们 集中 讨论 第 一 种 观点 。 

适度 的 训练 样本 大 小 或 样本 复杂 度 问 题 已 经 在 第 2 章 中 讨论 过 了 。 正 如 在 该 章 中 指出 的 
那样 ，VC 维 数 为 这 个 重要 的 设计 问题 的 原则 性 解决 方法 提供 了 理论 基础 。 特 别 地 ， 我 们 有 
与 分 布 无 关 和 最 坏 情 形 下 的 公式 以 估算 能 够 足够 形成 一 个 好 的 泛 化 性 能 的 训练 样本 的 大 小 ; 
请 参见 2.14 节 。 不 幸 的 是 ， 我 们 经 常 发 现在 实际 需要 的 训练 样本 的 大 小 和 由 这 些 公 式 预 测 
的 训练 样本 的 大 小 之 间 存 在 着 巨大 的 数值 差异 。 正 是 这 个 差异 使 得 样本 复杂 度 问 题 成 为 一 个 
持续 公开 的 研究 领域 。 

在 实践 中 ， 看 来 一 个 好 的 泛 化 事实 上 我 们 所 需要 的 全 部 是 训练 集 的 大 小 N 满足 条 件 


N= o( =) (4.85) 


在 这 里 W 是 指 网 络 中 自由 参数 ( 即 突 触 权 值 和 偏 置 ) 的 总 数 ，e 表示 测试 数据 中 容许 分 类 误差 
的 部 分 (正如 在 模式 分 类 中 一 样 )。0O(: ) 表 示 所 包含 的 量 的 阶 数 。 例 如 ， 具 有 10% 误 差 的 所 
需 训 练 样本 数量 应 该 是 网 络 中 自由 参量 数量 的 10 倍 。 

式 (4.85) 与 用 于 LMS 算法 的 Widow 经 验方 法 是 一 致 的， 后 者 指出 线性 自 适应 时 间 滤 波 
的 适应 迟滞 时 间 近 似 等 于 一 个 自 适 应 抽 头 延迟 线 滤 波 器 的 记忆 范围 除 以 误 调 节 (Widrow and 
Stearns, 1985) 。LMS 算法 中 的 误 调 节 扮 演 的 角色 与 式 (4.85) 中 的 误差 。 有 某 些 相 似 。 这 个 经 
验 规 则 的 进一步 理由 将 在 下 一 节 中 介绍 。 


4.13 函数 逼近 


一 个 由 反 向 传播 算法 训练 的 多 层 感知 器 可 以 被 看 作 一 个 实现 一 般 性 质 的 非 线 性 输入 / 输 
出 映射 的 实际 工具 。 具 体 地 ， 令 mo 表示 多 层 感 知 器 的 输入 ( 源 ) 节 点 的 数目 , SM = mj 表 
示 网 络 中 输出 层 神 经 元 的 数目 。 网 络 的 输入 /输出 关系 定义 一 个 从 mo 维 欧 几 里 德 输入 空间 
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到 M 维 欧 几 里 德 输出 空间 的 映射 ， 当 激活 函数 是 无 限 连续 可 微 的 时 候 ， 这 个 映射 也 是 无 限 
连续 可 微 的 。 在 用 这 种 输入 /输出 映射 观点 来 评价 多 层 感 知 器 能 力 的 过 程 中 ， 提 出 了 下 面 基 
本 的 问题 : 

一 个 多 层 感 知 器 的 输入 /输出 映射 能 够 提供 任何 一 个 连续 映射 的 近似 实现 ， 它 的 隐藏 层 
层 数 的 最 小 数目 是 多 少 ? 

AAEE 

这 个 问题 可 以 用 一 个 非 线性 输入 /输出 映射 的 通用 远近 定理 外 来 具体 表达 ， 该 定理 陈述 
如 下 : 

令 gp(:) 是 一 个 非常 数 的 、 有 界 的 和 单调 增 的 连续 函数 。 邻 1 表示 mo 维 单位 超 立 方 体 
[0,1j"。 上 连续 函数 空间 用 CU, RR. MA, BRET BK SIC, )Fe>0, HH 
这 样 的 一 个 整数 m 和 实 常 数 ai ， b; F wj, AP i=l, +, m, j=l, +, m, KANT 
以 定义 

Flassan) = Lao Dl + 3 (4.86) 
作为 用: ) 郊 数 的 一 个 近似 实现 ; 也 就 是 说 ， 

| PCa Lm ) fCat s Am) | <e 
对 存在 于 输入 空间 中 的 所 有 Xis N22, 3 xm 均 成 立 。 

通用 通 近 定理 可 直接 用 于 多 层 感知 器 。 我 们 首先 注意 到 在 一 个 作为 多 层 感知 器 结构 的 神 
经 元 模型 中 作为 非 线 性 部 分 的 logistic 函数 [1 + exp( - v)] 是 一 个 真正 非常 数 的 、 有 界 的 和 
单调 递增 的 函数 ; 因此 它 满足 函数 pg(: ) 的 上 述 条 件 。 下 一 步 ， 我 们 注意 式 (4.86) 表 达 如 下 


所 述 的 多 层 感知 器 的 输出 : 

1. 网 络 具有 m 个 输入 节点 和 单个 由 m 个 神经 元 组 成 的 隐藏 层 ; 输入 由 a, oy om, 
表示 。 

2. 隐藏 神经 元 i 具有 突 触 权 值 w, 9 oy Wn, 9 偏 置 bio 

3. 网 络 的 输出 是 隐藏 层 的 线性 组 合 ， 带 有 定义 输出 层 突 触 权 值 的 w e, am o 

通用 逼近 定理 是 存在 性 定理 ， 它 与 精确 表示 相反 ， 为 任意 连续 函数 的 逼近 提供 数学 上 的 
基础 。 作 为 定理 的 本 质 ， 式 (4.86) 仅 仅 是 推广 有 限 Fourier RZE. FXE, RAEE 
明 ， 对 于 多 层 感知 器 计算 一 个 由 输入 x, oo, xm 和 期 望 (目标 ) 输 出 f(x ，,…, xn ) 表 示 的 给 
定 训练 集 的 一 致 e 逼近 来 说 ， 单 个 隐藏 层 是 足够 的 。 然 而 ， 定 理 并 没有 说 明 单 个 隐藏 层 在 学 
习 时 间 、 实 现 的 难 易 程 度 或 者 (更 重要 的 ) 泛 化 意义 上 是 最 优 的 。 


有 逼近 误差 的 界 
假定 网 络 使 用 sigmoid 函数 的 单 层 隐 藏 神经 元 和 线性 输出 神经 元 ，Baron(1993) 建 立 了 多 
层 感 知 器 的 台 近 性 质 。 网 络 通 过 使 用 反 向 传播 算法 训练 ， 然 后 用 新 的 数据 测试 。 在 训练 过 程 
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中 ， 网 络 根据 训练 数据 学 习 目标 函数 了 中 的 特殊 点 ， 从 而 产生 由 式 (4.86) 中 定义 的 逼近 函数 
5F。 当 网 络 遇 到 以 前 没有 见 过 的 测试 数据 的 时 候 ， 网 络 函 数 严 就 充当 目标 函数 中 新 的 点 的 估 
计 器 ; BD, F=f. 

一 个 目标 函数 的 光滑 度 属性 用 它 的 Fourier( 变 换 ) 米 表达 。 特 别 地 ， 用 Fourier 幅度 分 布 加 
权 后 的 频率 向 量 的 范 数 的 平均 值 作为 函数 振荡 的 度量 标准 。 令 fo) RBM f(x) 的 多 维 
Fourier 变换 ，x€E RB: m x 1 向 量 @ AMR, BM f(x) 由 关于 它 的 Fourier 变换 函数 
了 (®@) 的 反 变 换 公式 定义 如 下 : 


f(x) = |, fo expjo"x) do (4.87) 


在 这 里 j=v - 1。 对 于 复 值 函数 fo), HF wF(o) 是 可 积 的 ， 我 们 定义 函数 f HY Fourier 幅 
度 分 布 的 一 阶 绝 对 动量 如 下 : 


C=]. IKa) ix loll "do (4.88) 


其 中 | @| 为 @ 的 欧 几 里 德 范 数 ，17@) 为 (wm) 的 绝对 值 。 一 阶 绝对 动量 C, 量化 函数 /的 
光滑 度 或 正则 性 。 

一 阶 绝对 动量 C 为 使 用 以 式 (4.86) 中 输入 /输出 映射 函数 F(x) 为 表示 的 多 层 感 知 器 近 
似 x) 而 导致 的 误差 范围 的 界 提供 基础 。 近 似 误 差 可 以 用 与 一 个 半径 > > 0 的 球体 B, = |x: 
xl 大 站 中 任意 可 能 的 概率 测度 y 相关 的 积分 平方 误差 来 衡量 。 在 这 个 基础 上 我 们 可 以 对 
Barron(1993) 提 出 的 近似 误差 范围 的 界 提出 如 下 命题 : 

对 于 每 个 具有 有 限 一 阶 绝对 动量 Cr 的 连续 函数 (x)， 以 及 每 个 msl, HEP at 
(4.86) 定 义 的 sigmoid 函数 的 线性 组 合 F(x)， 使 得 


f, F - FOO uae) = & 


其 中 C7 = (2rC;)’ o 
当 在 严格 属于 球体 B. 内 部 的 输入 向 量 x 的 值 集合 {x;1*, 上 观察 函数 f(x) 的 时 候 ， 命 题 
的 结果 对 经 验 风险 提供 如 下 的 界 : 


= 1 Da) - F(x)’ < £ (4.89) 


在 Bamron(1992) 中 ， 利 用 式 (4.89) 的 逼近 结果 表示 使 用 具有 m 个 输入 节点 和 m 个 隐藏 神经 
元 的 多 层 感 知 器 而 导致 的 风险 R 的 界 如 下 : 
Rg o( $t); ol logn) (4.90) 

风险 R HRH RRA P BU A) A ORS ER TA: 
1. 最 佳 逼近 的 精确 度 。 为 了 满足 这 个 要 求 ， 根 据 通用 逼近 定理 降 藏 层 的 大 小 m 必须 足 
够 大 ; ' 

2. 近似 的 经 验 拟 合 精确 度 。 为 了 满足 的 第 二 个 要 求 ， 我 们 必须 使 用 一 个 小 的 比值 m/ 
N。 由 于 训练 集 的 固定 大 小 为 Y， 隐 藏 层 的 大 小 m 应 该 保持 较 小 ， 这 跟 第 一 个 要 求 是 矛盾 
的 。 
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式 (4.90) 描 述 的 风险 R 的 界 具 有 另外 一 个 有 趣 的 含意 。 特 别 地 ， 我 们 看 到 假如 一 阶 绝 
对 动量 C 仍 是 有 限 的 话 ， 相 对 于 输入 空间 维 数 m 一 个 指数 规模 的 大 样本 集 对 于 得 到 一 个 
目标 函数 精确 的 估算 并 不 是 必须 的 。 这 个 结果 使 得 多 层 感知 器 作为 通用 逼近 器 在 实际 条 件 下 
甚至 显得 更 重要 。 

经 验 拟 合 和 最 佳 逼近 之 间 的 误差 可 以 看 作 是 第 2 章 中 所 述 的 估计 误差 。 令 so 表示 估计 
误差 的 均 方 值 。 然 后 忽略 式 (4.90) 中 表达 式 的 第 二 项 的 对 数 因子 logN， 我 们 可 以 推断 出 一 个 
好 的 泛 化 所 需 的 训练 集 大 小 N 大 约 是 mo mi/eo。。 这 个 结果 跟 经 验 公式 (4.85) 具 有 相似 的 数学 
结构 ， 记 住 mom, 等 于 网 络 中 自由 参数 WW 的 总 数 。 换 句 话 说， 我 们 可 以 从 总 体 上 说 为 了 得 
到 好 的 泛 化 ， 训 练 样本 的 数目 N 应 该 大 于 网 络 中 自由 参数 总 数 和 估计 误差 均 方 值 之 比 。 


维 数 灾 
出 现在 式 (4.90) 所 描述 的 界 中 另 一 个 有 趣 的 结果 ， 是 当 对 隐藏 层 的 大 小 通过 设 定 


N 1/2 
mologN ) 





mMm, = cl 


进行 优化 (也 就 是 风险 RAFN 最 小 化 ) 的 时 候 ， 这 时 风险 R 由 0( CvVmo(logNIN) ) 限 定 。 
这 个 结果 的 一 个 令 人 惊奇 的 方面 是 根据 风险 R 的 一 阶 行为 ， 以 训练 集 大 小 N 的 函数 表达 的 
收 全 速率 的 阶 为 (UN)”( 乘 以 一 个 对 数 因子)。 在 另 一 方面 ， 对 传统 的 光滑 函数 (例如 多 项 式 
和 三 角 函 数 ) 我 们 有 不 同 的 行为 。 令 :表示 光滑 度 的 一 种 度量 ， 定 义 为 函数 具有 连续 导数 的 
阶 数 。 那 么 ， 对 于 传统 光滑 函数 我 们 发 现 总 风险 R 的 极 小 极 大 的 收敛 速率 的 阶 为 
(LN)22 0? 。 这 个 收敛 速率 对 输入 空间 维 数 mo 的 依赖 就 是 维 数 灾 ， 这 严重 地 制约 这 些 函 
数 的 实际 应 用 。 使 用 多 层 感 知 器 进行 函数 逼近 看 来 提供 超越 于 传统 光滑 明 数 的 优势 ， 但 是 ， 
这 个 优势 受 限于 一 阶 绝 对 动量 C, 保持 有 限 的 条 件 ; 这 是 一 个 光滑 度 约束 。 

Richard Bellman 在 他 对 自 适应 控制 过 程 (Bellman,1961) 的 研究 中 介绍 了 维 数 灾 。 为 了 从 几 
何 上 解释 这 个 概念 ， 令 x 表示 一 个 m 维 的 输入 向 量 ，{ (x,, qd;)| ,i =1,2,… ,NN 表示 训练 样 
E. FERRES N'™ 成 正比 。 令 函数 f(x) 代 表 一 个 位 于 mo 维 输入 空间 的 曲面 ， 它 近似 通 
BA (x,.d 1%. WE, WM f(x) 是 任意 复杂 并 且 ( 对 绝 大 部 分 ) 是 完全 未 知 的， 我 们 
需要 密集 的 样本 (数据 ) 来 进行 很 好 的 学 习 。 不 幸 的 是 ， 密 集 样 本 在 “高 维 " 中 是 很 难 找到 的 ， 
因此 产生 了 维 数 灾 。 特 别 地 ， 维 数 增加 的 结果 导致 复杂 度 呈 指数 增长 ， 从 而 引起 高 维 空间 中 
一 致 随机 分 布点 的 空间 填充 性 质 退 化 。 维 数 灾 的 基本 原因 如 下 (Friedman,1995): 

定义 在 高 维 空间 的 澡 数 很 可 能 远 远 比 定义 在 低 维 空间 上 的 函数 复杂 得 多 ,并 且 这 些 复 杂 
的 东西 是 更 难以 区 分 的 。 
克服 维 数 灾难 的 惟一 可 行 办 法 是 除 训练 数据 外 结合 关于 这 个 函数 的 一 些 先 验 知识 ， 这 些 先 验 
知识 已 知 是 正确 的 。 

在 实际 中 ， 也 可 能 存在 这 样 的 争论 : 如 果 希 望 在 高 维 空间 中 得 到 好 的 估计 ， 随 着 输入 维 
数 的 增加 我 们 必须 增加 未 知 的 固有 函数 的 光滑 度 (Niyogi and Girosi, 1996)。 这 个 观点 将 在 第 5 
章 中 继续 深入 讨论 。 
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可 行 性 考虑 . 


从 理论 的 观点 来 看 ， 通 用 通 近 定理 是 重要 的 ， 因 为 它 为 具有 单个 隐藏 层 的 前 馈 网 络 作为 
一 类 通 近 器 的 可 能 性 提供 了 必要 的 数学 工具 。 如 果 没 有 这 样 一 个 理论 ， 我 们 可 能 在 盲目 寻找 
那些 并 不 存在 的 方法 。 然 而 ， 这 个 理论 并 不 是 构造 性 的 ， 即 它 实际 上 并 不 能 有 具体 实现 如 何 由 
陈述 的 和 逼 近 性 质 决定 一 个 多 层 感 知 器 。 

通用 通 近 定理 假设 被 通 近 的 连续 函数 是 给 定 的 并 且 逼 近 可 用 一 个 神经 元 数目 无 限制 的 隐 
藏 层 。 这 两 个 假设 在 多 层 感 知 器 的 绝 大 多 数 实际 应 用 中 都 是 不 满足 的 。 

使 用 单个 隐藏 层 的 多 层 感知 器 的 问题 是 隐藏 层 的 神经 元 倾向 于 全 局 地 相互 作用 。 在 复杂 
情形 下 这 种 相互 作用 使 得 在 一 点 提高 它 的 盈 近 同时 又 很 难 不 恶化 它 在 另外 点 上 的 允 近 。 另 一 
方面 ， 在 具有 两 个 隐藏 层 的 情况 下 逼近 (曲线 拟 合 ) 过 程 变 得 更 容易 协调 。 具 体 地 ， 我 们 可 以 
进行 如 下 处 理 (Funahashi, 1989; Chester, 1990) : 

1. 从 第 一 个 隐藏 层 中 抽取 局 部 特征 。 特 别 地 ， 利 用 在 第 一 个 隐藏 层 中 的 一 些 神经 元 将 
输入 空间 分 割 成 区 域 ， 这 层 中 另外 的 神经 元 学 习 表 征 这 些 区 域 特点 的 局 部 特征 。 

2. 从 第 二 个 隐藏 层 中 抽取 全 局 特征 。 特 别 地 ， 在 第 二 隐藏 层 中 的 一 个 神经 元 组 合 在 输 
入 空间 特定 区 域 操作 的 第 一 个 隐藏 层 的 各 神经 元 的 输出 ， 从 而 学 习 该 区 域 的 全 局 特征 并 且 在 
别处 的 输出 为 零 。 

这 个 两 阶段 的 逼近 过 程 在 实质 上 与 曲线 拟 合 的 样 条 插值 技术 是 相似 的 ， 相 似 的 意义 是 指 
神经 元 的 作用 效果 是 分 离 的 且 输 入 空间 不 同 区 域 的 逼近 可 以 单独 地 调整 。 一 个 样 条 就 是 一 个 
RRA MAGE IH AF 

Sontag(1992) 为 在 逆 问 题 中 两 个 隐藏 层 的 使 用 提供 进一步 理由 。 具 体 地 ， 考 虑 下 述 道 问题 ， 

给 定 一 个 连续 向 量 值 的 函数 ff: WB" RB", —ShRFRECR” 包含 在 f 的 像 ( 即 值 域 ) 之 
中 ,并且 >0， 和 寻找 一 个 向 量 值 函 数 o: R >R", ERREFE: 

| p(f(u)) -ull <e WF ue € 
iAP a a SEs PF (AF), WI RABE BERAS x(n) 是 当前 动作 u(n) 和 系 
统 前 一 状态 x(n - 1) 的 函数 ， 表 示 为 

x(n) = f(x(n - 1),u(n)) 

BBR EA, PEARSE AE AAT x(n - 1) 我 们 可 以 把 u(n) 当 作 x(n) BOR RB, RM ERK 
直接 运动 学 ， 因 而 函数 q 代 表 逆 运动 学 。 在 实际 条 件 中 ,我们 的 动机 是 寻找 一 个 可 以 通过 多 
层 感 知 器 计算 的 函数 pg。 从 总 的 说 来 ， 不 连续 函数 p 对 于 解决 道 运动 学 问题 是 必需 的 。 有 趣 
的 是 即使 允许 使 用 具有 不 连续 激活 函数 的 神经 元 模型 ， 一 个 隐藏 层 并 不 能 充分 保证 所 有 这 类 
道 问 题 的 解决 , 但 是 具有 两 个 隐藏 层 的 多 层 感知 器 对 于 每 一 个 可 能 的 f、% 和 。 是 充分 的 
(Sontag, 1992)。 
4.14 交叉 确认 

反 向 传播 学 习 的 本 质 是 把 输入 /输出 映射 (由 标定 的 一 组 训练 样本 表示 ) 编 码 为 一 个 多 层 
感知 器 的 突 触 权 值 和 闭 值 。 希 望 网 络 被 很 好 地 训练 使 得 它 对 过 去 进行 充分 的 学 习 就 能 对 未 来 
进行 泛 化 。 从 这 个 观点 来 看 ， 学 习 过 程 意味 着 对 这 个 数据 集合 给 出 网 络 参 数 化 的 一 个 选择 。 
有 具体 地 ， 我 们 可 以 把 网 络 选择 问题 看 作 是 在 一 组 候选 模型 结构 (参数 ) 集 合 中 选择 符合 某 个 标 
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准 的 “最 好 ”的 一 个 。 

在 这 种 意义 下 ， 统 计 学 中 一 个 名 为 交叉 确认 的 标准 工具 提供 一 个 有 吸引 力 的 指导 原则 8 
(Stone,1974,1978 )。 已 有 的 可 用 数据 集 首 先 被 随机 分 割 成 一 个 训练 集 和 一 个 测试 集 。 这 个 训 
练 集 被 进一步 细 分 为 两 个 不 相交 子 集 : 

。 估计 子 集 ， 用 来 选择 模型 。 

。 确认 子 集 ， 用 来 测试 或 者 确认 模型 。 

这 里 的 动机 是 用 一 个 与 参数 估计 数据 集 不 同 的 数据 集 确认 模型 。 用 这 个 办 法 我 们 可 以 用 
训练 集 来 估计 不 同 候选 模型 的 性 能 ， 进 而 选择 “最 好 ”的 一 个 。 然 而 ， 存 在 一 个 明显 的 可 能 性 
是 这 样 选 出 来 的 具有 最 好 表现 参数 值 的 模型 可 能 会 导致 对 确认 子 集 的 过 度 拟 合 。 为 了 防止 这 
个 可 能 性 的 出 现 ， 在 与 确认 子 集 不 同 的 测试 集 上 测量 被 选 模型 的 泛 化 性 能 。 

当 我 们 不 得 不 以 设计 一 个 具有 好 的 泛 化 性 能 的 大 型 神经 网 络 作为 目标 的 时 候 ， 交 叉 确 认 
的 使 用 是 特别 吸引 人 人 的。 例如， 我 们 可 以 使 用 交叉 确认 确定 具有 最 优 隐藏 神经 元 数目 的 多 层 
感知 器 ， 以 及 最 好 在 何 时 停止 它 的 训练 ， 正 如 在 下 面 两 小 节 中 所 述 的 那样 。 


模型 选择 


根据 交叉 确认 选择 模型 的 思想 ， 遵 循 一 种 与 第 2 章 所 述 结构 风险 最 小 化 相似 的 原理 。 现 

在 考虑 如 下 表示 的 布尔 函数 类 的 知人 结构 : 
FCF Cu CF, 
F, = [F] = {F(x,w);w € W}, k = 1,2,...,n (4.91) 
也 就 是 说 ， 第 k TRAF, BE-RAAHUARAMNS RRM, HOA Ww 从 一 
个 多 维权 值 空间 W, 抽出 。 以 函数 或 者 假设 F, = F(x,w), WEW, 为 特征 的 类 的 一 个 成 员 把 
输入 向 量 x 映 射 到 10,11， 这 里 x 是 以 某 未 知 概率 P 从 输入 空间 多 中 抽取 出 来 的 。 在 所 述 结 
构 中 每 个 多 层 感 知 器 都 是 由 反 向 传播 算法 训练 的 ， 该 算法 负责 多 层 感知 器 参数 的 训练 。 模 型 
选择 问题 本 质 是 选择 具有 最 好 的 自由 参数 ( 即 突 触 权 值 和 阐 值 ) 数 目 多 值 的 多 层 感知 器 。 更 
精确 地 ,假设 对 输入 向 量 x 的 期 望 响 应 标量 是 a = 10,1 |}， 我 们 定义 泛 化 误差 如 下 : 
e,(F) = P(F(x) x d) WF xe ¥ 
给 出 一 个 标定 的 训练 样本 集 
了 = (Odi Aa 

我 们 的 目标 是 选择 特定 的 假设 (x,w)， 当 从 测试 集中 给 定 输入 时 它 最 小 化 所 得 泛 化 误差 
es (F)o 

下 面 我 们 假设 由 式 (4.91) 表 达 的 结构 具有 这 样 的 性 质 ， 即 对 于 任意 大 小 的 N 我 们 都 可 
以 找到 一 个 具有 数量 足够 多 的 自由 参数 的 数目 Wie (NN) 的 多 层 感知 器 ， 使 得 训练 数据 集 了 就 
可 以 被 合适 地 拟 合 。 这 只 不 过 重申 4.13 节 的 通用 逼近 定理 。 我 们 把 Vol NAHER 
Wa (VW) 的 意义 在 于 ， 一 个 合理 的 模型 选择 程序 应 该 选择 一 个 满足 Wx Wo 入) 的 假设 F(x, 
w); 否则 网 络 复杂 度 将 会 增加 。 

令 一 个 位 于 0 和 1 范围 之 间 的 参数 r 决定 估计 子 集 和 确认 子 集 之 间 的 训练 数据 集 9 的 划 
at. TH 六 个 样本 组 成 ，(1- r)wN 个 样本 分 配给 估计 子 集 ， 剩 下 的 my 个 样本 分 配给 确认 子 
Ro THU PRAT 表示， 它 用 于 训练 多 层 感 知 器 的 一 个 嵌 套 序列 ， 笛 套 结构 导致 复杂 度 递增 
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的 假设 外 , Fo, Fo ATO AO -rN PER, RIAA WW 的 值 小 于 或 者 等 于 相 
MERMER W,,. (C1 - r) N)o 


交叉 确认 方法 的 使 用 导致 选择 
F, = min le" (F,)| (4.92) 
HF v HFW, < Wal (l-r), & (F EEE rN 个 样本 组 成 的 确认 子 集 9” 上 测试 时 由 
BEF, 产生 的 分 类 误差 。 


关键 问题 是 如 何 具体 确定 参数 7 以 决定 训练 集 9 在 估计 子 集 9 MU ERS” Ze R 
分 。 在 Keams(1996) 描 述 的 研究 中 ， 利 用 VC 维 数 对 该 论题 进行 分 析 处 理 和 具体 的 计算 机 仿 
真 支持 ， 确 定 了 最 优 r 的 几 个 定性 特点 : 

。 当 定 义 输入 向 量 x 的 期 望 响应 d 的 目标 函数 的 复杂 度 相 对 于 样本 大 小 的 W 是 很 小 的 

时 候 ， 交 叉 确 认 的 性 能 对 r 的 选择 相对 不 灵敏 。 
。 随 着 目标 函数 相对 于 样本 大 小 N 变 得 更 复杂 的 时 候 ， 最 优 r 的 选择 在 交叉 确认 性 能 
上 具有 更 重要 的 影响 ， 并 且 r 自身 的 值 减 小 。 

。 的 一 个 单一 固定 的 值 在 目标 函数 复杂 度 的 一 个 相当 大 的 范围 内 保持 近乎 最 佳 。 
根据 Keams(1996) 报 告 的 结果 ，r 等 于 0.2 的 一 个 固定 值 看 来 是 一 个 合理 的 选择 ， 这 意 昧 着 
训练 集 了 的 80% 被 指定 为 估计 子 集 ， 剩 下 的 20% 被 指定 为 确认 子 集 。 

早 些 时 候 我 们 谈 到 复杂 度 增 长 的 多 层 感 知 器 的 能 人 序列 。 对 于 规定 的 输入 和 输出 层 来 
说 ， 这 样 的 顺序 是 可 能 被 建立 起 来 的 ， 例 如 ， 建 立 具 有 v= p + g 个 完全 连接 的 多 层 感 知 器 
如 下 : | 

。 p 个 具有 隐藏 神经 元 数目 按 且 , < h', <… <h’, 增加 的 单个 隐藏 层 的 多 层 感知 器 。 

。 4 个 具有 两 个 隐藏 层 的 多 层 感 知 器 ; 第 一 个 隐藏 层 神经 元 的 大 小 为 h', ， 第 二 个 隐藏 

层 神经 元 数目 按 jn < jir <…< 如 递增 。 
当 我 们 从 一 个 多 层 感 知 器 到 另 一 个 多 层 感 知 器 的 时 候 ， 自 由 参数 数目 于 有 相应 的 增加 。 上 述 
基于 交叉 确认 方法 的 模型 选择 过 程 为 我 们 提供 一 个 决定 多 层 感知 器 中 隐藏 神经 元 数目 的 原则 性 
方法 。 尽 管 该 过 程 针对 二 值 分 类 讨论 的 ， 但 是 它 可 等 价 地 应 用 到 多 层 感知 器 的 其 他 应 用 中 。 


训练 的 早期 停止 方法 


通常 ， 用 反 向 传播 算法 训练 的 多 层 感知 器 分 阶段 地 进行 学 习 ， 随 训练 过 程 的 进行 从 相当 
简单 的 映射 函数 实现 到 更 复杂 的 映射 函数 实现 。 这 通过 在 一 个 典型 情形 下 在 训练 中 均 方 误差 
随 着 训练 回合 的 增加 而 减少 的 例子 来 证 明 ; 均 方 误 差 从 一 个 很 大 的 值 开 始 ， 然 后 迅速 地 减 
小 ， 最 后 随 着 网 络 在 误差 曲面 接近 局 部 最 小 值 的 时 候 缓 慢 地 减 小 。 由 于 以 得 到 好 的 泛 化 作为 
目标 ， 如 果 我 们 准备 通过 观察 它 自身 训练 得 到 的 学 习 曲 线 来 断定 什么 时 候 停止 训练 最 好 ， 这 
是 非常 困难 的 。 特 别 地 ， 根 据 4.12 节 关 于 泛 化 所 说 的 ， 如 果 训 练 时 间 并 不 在 恰当 的 点 上 停 
下 来 ， 网 络 结束 时 过 拟 合 训练 数据 是 可 能 的 。 

我 们 可 以 通过 交叉 确认 来 标记 过 拟 合 的 发 生 ， 为 此 训练 数据 被 分 成 估计 子 集 和 确认 子 
集 。 使 用 样本 的 估计 子 集 以 通常 方法 训练 网 络 ， 但 有 较 小 的 修改 : 训练 时 间 被 周期 性 地 停止 
( 即 每 一 个 周期 都 有 许多 训练 回合 )， 并 且 在 每 个 训练 周期 之 后 都 由 确认 子 集 测试 网 络 。 具 体 
地 ， 周 期 性 的 估计 伴随 确认 (estimation-followed-by-validation) 的 过 程 是 如 下 进行 的 : 
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。 经 过 一 个 估计 (训练 ) 周 期 之 后 ， 多 层 感知 器 的 突 触 权 值 和 偏 置 都 已 经 固定 ， 网 络 是 
在 它 的 前 向 方式 下 运作 的 。 从 而 对 确认 子 集中 的 每 个 样本 测定 确认 误差 。 

。 当 确 认 阶 段 完 成 的 时 候 ， 估 计 ( 训 练 ) 重 新 开始 另 一 个 周期 ， 这 个 过 程 被 重复 。 
这 个 过 程 称 作 训练 的 早期 停止 方法 00 。 

图 4-20 显示 两 种 学 习 曲 线 的 概念 形式 ， 
一 个 属于 估计 子 集 上 的 测定 误差 ， 另 一 个 属于 
确认 子 集 。 通 常 ， 模 型 在 确认 子 集 上 的 表现 并 
不 像 它 在 估计 子 集 上 的 表现 那么 出 色 ， 它 的 设 ” 均 广 
计 是 基于 估计 子 集 的 。 估 计 学 习 曲 线 在 一 般 情 。” 误 关 
况 下 随 训练 回合 数目 的 增加 而 单调 地 减 小 。 与 
此 相对 地 ， 确 认 学 习 曲 线 单调 地 递减 到 一 个 最 
小 值 ， 然 后 它 开始 随 训练 的 继续 而 递增 。 当 我 
们 仅 观察 估计 学 习 曲 线 的 时 候 ， 很 明显 通过 越 
过 确认 学 习 曲 线 上 的 最 小 点 我 们 可 以 得 到 它 的 0 训练 回合 数目 
更 小 的 值 。 然 而 在 实际 上 ， 网 络 在 越过 该 点 学 
习 到 的 主要 是 包含 在 训练 数据 中 的 噪声 。 这 种 
启发 方法 意味 着 确认 学 习 曲 线 上 的 最 小 点 可 用 于 停止 训练 过 程 的 合理 准则 。 

如 果 训 练 数据 是 无 噪声 结果 将 会 如 何 ?我 们 如 何 为 一 个 确定 的 情况 判断 它 的 早期 停止 ? 
这 种 情况 的 部 分 答案 是 ， 如 果 估计 和 确认 误差 两 者 都 不 能 同时 地 趋 于 零 ,、 这 上 暗示 着 网 络 并 没 
有 建立 函数 的 精确 模型 的 能 力 。 在 这 种 情形 下 我 们 所 能 做 到 的 最 好 事情 是 力求 最 小 化 误差 ， 
例如 积分 平方 误差 ， 它 (大 体 上 ) 等 价 于 最 小 化 通常 的 具有 均匀 输入 密度 的 全 局 均 方 误差 。 

在 Amari et al.(1996) 提 出 的 过 拟 合 现象 的 统计 学 理论 为 训练 早期 停止 方法 的 使 用 提出 了 

告 。 这 个 理论 是 基于 集中 式 学 习 的 ， 并 且 得 到 包含 一 个 隐藏 层 的 多 层 感知 分 类 器 的 具体 计 

算 机 仿真 的 支持 。 两 种 行为 模式 同样 依赖 于 训练 集 的 大 小 : 

一 种 是 非 渐 近 模式 ， 这 种 模式 的 N < 多， 其 中 N 是 训练 集 的 大 小 ， 币 是 网 络 中 自由 参 
数 的 个 数 。 对 于 这 种 行为 模式 来 说 ， 训 练 的 早期 停止 方法 通过 无 遗漏 训练 ( 即 用 完整 的 样本 
集合 进行 训练 并 且 训 练 过 程 不 被 停止 ) 确 实 提高 网 络 的 泛 化 性 能 。 这 个 结果 提示 当 N < 30W 
的 时 候 过 拟 合 可 能 会 发 生 ， 并 且 交 叉 确 认 停止 训练 的 方法 的 运用 具有 实际 的 优点 。 决 定 估计 
子 集 和 确认 子 集 之 间 训 练 数据 划分 的 参数 + 的 最 优 值 定义 为 





l N 
! 早 期 停止 点 训练 样本 


图 4-20 基于 交叉 确认 的 早期 停止 准则 示意 图 


_ 1 J2W-1-1 
Top =- “OCW — 1) 
对 于 大 的 到， 这 个 公式 近似 为 
1 4 
roe = l- y 很 大 (4.93) 


例如 ， 对 于 W=100, ra = 0.07， 这 意味 着 训练 数据 的 93% 被 分 配 到 估计 子 集 ， 而 剩 下 的 
7 被 分 配 到 确认 子 集 。 

另 一 种 是 渐 近 模式 ， 这 种 模式 的 N > 30 勾 。 对 于 这 种 行为 模式 来 说 ， 通 过 无 遗漏 训练 使 
用 训练 早期 停止 方法 产生 的 泛 化 性 能 的 提高 是 很 小 的 。 换 名 话说 ， 在 训练 样本 的 大 小 相对 大 
于 网 络 参数 的 数目 的 时 候 ， 无 遗漏 学 习 是 令 人 满意 的 。 
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交叉 确认 的 变 体 


上 述 交 又 确 认 的 方法 称 为 坚持 到 底 方 法 (hold out method)。 在 实际 中 还 有 另外 一 些 能 找 
到 它们 自身 应 用 的 交叉 确认 的 变 体 ， 特 别 是 在 标定 样本 缺乏 的 时 候 。 在 这 样 的 情况 下 我 们 可 
以 通过 把 N 个 样本 的 可 用 集合 分 割 为 天 个 子 集 来 使 用 多 重 交 叉 确 认 方 法 ,天 > 1; 这 里 假设 
N 对 是 可 除 的 。 这 个 模型 在 除了 一 个 子 集 之 外 的 其 他 。 C O O e 
子 集 上 进行 训练 ， 确 认 误差 通过 剩 下 子 集 上 的 测试 来 测 
量 。 这 个 过 程 总 共 被 重复 K 次 试验 ， 每 次 使 用 一 个 不 同 ” 实验 2[ |] [ 
的 子 集 进行 确认 ， 如 图 4-21 所 示 K =4 的 情形 。 模 型 性 











能 的 评估 是 通过 求实 验 中 所 有 的 实验 的 确认 平方 误差 的 。 实验 3 | L È] 
平均 值 来 进行 的 。 多 重 交叉 确认 存在 一 个 缺点 ;因为 模 
型 必须 训练 天 次 ， 它 可 能 需要 一 个 过 多 的 计算 量 ， 这 里 JI CJ L] 





1< K&N 图 4-21 交叉 确认 的 坚持 到 底 方 

当 可 用 的 标定 样本 的 数目 N 被 严格 限制 的 时 候 ， 我 法 示意 图 ， 对 一 给 定 的 实验 ， 带 
们 可 以 使 用 被 称 为 “ 留 一 "方法 的 多 重 交叉 确认 的 极端 形 阴影 的 数据 集 用 来 确认 模型 ， 而 
式 。 在 这 种 方法 中 ，N - 1 个 样本 用 来 训练 模型 ， 并 且 这 剩 下 的 数据 用 来 训练 模型 
个 模型 通过 剩 下 的 一 个 样本 的 测试 来 确认 。 这 个 实验 总 共 被 重复 N 次 ， 每 次 留 出 一 个 不 同 
的 样本 来 进行 确认 。 然 后 通过 确认 的 平方 误差 在 N 次 实验 上 求 平均 。 


4.15 网 络 修剪 技术 


用 神经 网 络 解决 现实 世界 中 的 问题 经 常 要 求 使 用 一 个 相当 庞大 的 高 度 结构 化 的 网 络 。 在 
此 背景 下 出 现 的 一 个 实际 问题 是 在 保持 良好 性 能 的 同时 使 网 络 的 规模 最 小 化 。 具 有 最 小 规模 
的 神经 网 络 学 习 训练 数据 的 独 有 特征 或 者 噪音 的 可 能 性 更 小 ， 这 样 可 能 对 新 的 数据 有 更 好 的 
应 化 。 我 们 可 以 用 如 下 两 个 途径 中 的 一 个 来 达到 这 个 设计 目标 ; 
。 网 络 生长 ， 在 这 种 方法 中 我 们 以 一 个 小 的 多 层 感知 器 开始 ， 小 到 能 实现 当前 任务 即 
可 ， 然 后 仅 当 用 这 个 多 层 感知 器 不 能 实现 我 们 具体 的 设计 要 求 的 时 候 增 加 一 个 新 的 
隐藏 神经 元 或 者 一 层 新 的 隐藏 神经 元 1。 
。 网 络 修剪 ， 用 这 种 方法 我 们 以 一 个 很 大 的 具有 足够 解决 当前 问题 性 能 的 多 层 感 知 器 
开始 ， 然 后 通过 选择 的 和 有 序 的 方式 削弱 或 者 消除 某 些 突 触 权 值 来 修剪 多 层 感 知 器 。 
在 本 节 中 我 们 集中 讨论 网 络 修剪 的 方法 。 特 别 地 ， 我 们 描述 两 种 和 逼近 ， 一 种 基于 “正则 
化 "的 形式 ， 另 一 种 基于 从 网 络 中 “删除 ? 某 些 连接 的 形式 。 


复杂 性 -正则 化 


无 论 用 何 种 方式 设计 一 个 多 层 感知 器 ， 实 际 上 我 们 都 是 对 生成 用 于 训练 网 络 的 输入 输出 
样本 的 物理 现象 建立 一 个 非 线性 模型 。 就 网 络 的 设计 而 论 在 本 质 上 还 是 统计 的 ， 我 们 需要 在 
训练 数据 的 可 靠 性 和 模型 的 适应 度 之 间 寻 找 一 个 适当 的 折 中 ( 即 解决 偏 置 方差 困境 的 方法 )。 
在 反 向 传播 学 习 的 背景 下 ， 或 者 任何 其 他 的 监督 学 习 过 程 而 言 ， 我 们 都 可 能 通过 最 小 化 表述 
如 下 的 总 量 风险 以 实现 折 中 ， 

R(w) = €,(W) +28, (w) (4.94) 
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第 一 项 &,(w) 是 标准 的 性 能 度量 ， 它 同时 依赖 于 网 络 (模型 ) 和 输入 数据 。 在 反 向 传播 学 习 
中 ， 它 被 典型 地 定义 为 均 方 误差 ， 该 误差 的 计算 扩展 到 网 络 输出 神经 元 ， 并 且 它 在 每 一 回合 
的 基础 上 对 所 有 训练 样本 来 完成 。 第 二 项 €,(w) 是 复杂 性 惩罚 ， 它 单独 依赖 于 网 络 ( 模 型 ); 
它 所 包含 的 内 容 利 用 我 们 可 能 具有 的 关于 所 考虑 模型 的 解 的 先 验 知识 。 事 实 上 ， 式 (4.94) 所 
定义 的 总 量 风险 形式 是 Tikhonov 正则 化 理论 的 简单 陈述 ; 这 个 主题 将 在 第 5 章 详细 论述 。 对 
于 当前 的 讨论 ， 把 入 看 作 正 则 化 参数 就 足够 了 ， 它 代表 着 复杂 性 惩罚 项 关于 性 能 度量 项 的 相 
对 重要 性 。 当 入 为 零 的 时 候 ， 反 向 传播 学 习 过 程 是 无 约束 的 ， 网 络 由 训练 样本 完全 确定 。 在 
另 一 方面 ， 当 入 趋 于 无 穷 大 的 时 候 ， 这 意味 着 由 复杂 性 惩罚 所 得 到 的 约束 自身 就 可 以 具体 确 
定 网 络 ， 用 另 一 种 说 法 就 是 训练 样本 是 不 可 靠 的 。 在 权 值 衰减 过 程 的 实际 应 用 中 ， 正 则 化 参 
BOA 被 赋予 两 个 极端 情形 之 间 的 某 个 位 置 的 值 。 这 里 所 讲述 的 使 用 复杂 性 正则 化 提高 归纳 能 
力 的 观点 是 完全 和 第 2 章 中 讨论 的 结构 风险 最 小 化 过 程 相 容 的 。 
在 一 般 设置 中 ， 复 杂 度 惩罚 项 名 (w) 的 一 个 选择 是 第 大 阶 光滑 积分 
E (w,k) = Ff) Rew | uo ax (4.95) 


这 里 F(x, w ERAS ABR, p(x) 是 某 个 加 权 函 数 ， 它 决定 在 这 个 输入 空间 中 
要 求 函数 F(x,w) 光 滑 的 区 域 。 这 里 的 目标 是 使 得 F(x,w) 对 输入 向 量 x 第 大 阶 微分 较 小 。 
我 们 选择 有 越 大 ， 函 数 F(x,w) 就 变 得 越 光滑 ( 即 更 少 的 复杂 度 )。 
下 面 我 们 描述 多 层 感 知 器 的 三 种 不 同 ( 难 度 递增 ) 的 复杂 性 正则 化 方法 。 
权 值 衰减 ”在 权 值 衰减 过 程 (Hinton, 1989 ) 中 ， 复 杂 性 惩罚 项 被 定义 为 网 络 中 权 值 向 量 
w( 即 所 有 的 自由 参数 ) 的 平方 范 数 ， 表 示 为 
€.(w) = llwll? = X w (4.96) 


EG ual 

FERS a EE HA RUE KAEA A H h e 8 EAE 
似 于 零 的 值 来 进行 的 ， 而 允许 其 他 的 权 值 保持 它们 相对 大 的 值 。 所 以 ， 网 络 的 权 值 大 致 分 为 
两 个 类 : 那些 对 网 络 (模型 ) 具 有 很 大 影响 的 权 值 和 那些 对 网 络 很 少 或 者 根本 没有 影响 的 权 
值 。 在 后 一 类 中 的 权 值 称 为 多 余 权 值 。 在 不 进行 复杂 性 正则 化 的 情况 下 ， 这 些 权 值 通过 它们 
很 可 能 取 完 全 任意 的 数值 ， 或 为 了 得 到 训练 误差 上 的 轻微 减少 而 促使 网 络 过 度 拟 合 训练 数 
据 ， 从 而 导致 很 差 的 推广 性 能 (Hush and Horne, 1993 )。 复 杂 性 正则 化 的 使 用 鼓励 多 余 权 值 取 
得 接近 于 零 的 数值 ， 因 而 提高 泛 化 能 力 。 

在 权 值 衰减 过 程 中 ， 多 层 感知 器 中 所 有 的 权 值 都 被 平等 地 对 待 。 这 就 是 ， 权 值 空间 中 的 
先 验 分 布 被 假设 集中 在 原点 附近 。 严 格 地 讲 ， 权 值 衰减 并 不 是 多 层 感知 器 复杂 性 正则 化 的 正 
确 形 式 ， 因 为 它 并 不 符合 式 (4.95) 的 基本 原理 。 然 而 ， 它 是 很 简单 的 并 且 在 一 些 应 用 中 看 起 
来 工作 得 很 好 。 

REIR ”在 这 第 二 个 复杂 性 正则 化 的 过 程 中 ， 复杂 性 惩罚 定义 为 (Weigend et al. ,1991 ) 


E(w) = Sy wile) (4.97) 


:é@ 1 + (w/wo)’ 
其 中 wo 是 预先 指定 的 参数 ，w, 是 指 网 络 中 某 个 突 触 i MRA. HAC, ERMA PHA 
突 触 连接 。 单 独 的 惩罚 项 以 对 称 的 方式 随 w/w 变化 ， 如 图 4-22 所 示 的 那样 。 当 1z | <w 
的 时 候 ， 对 于 该 权 值 的 复杂 性 惩罚 (代价 ) 逼 近 于 零 。 这 个 条 件 的 含义 是 就 所 关注 的 从 样本 的 





219 





[220| 


[221 | 





156 HAF 





学 习 而 言 第 i 个 突 触 权 值 
是 不 可 靠 的 从 而 应 该 从 网 
络 中 剔除 。 而 另 一 方面 ， 
iw >w 时 ， 该 权 值 的 
复杂 性 惩罚 (代价 ) 逼 近 最 
大 值 1， 这 意味 着 w WR 
向 传播 学 习 过 程 是 重要 的 。 
这 样 我 们 就 看 到 式 (4.97) 中 
的 惩罚 项 确实 达到 确认 网 
络 中 有 重要 影响 的 突 触 权 
值 这 个 期 望 目 的 。 同 时 注 
意 权 值 剔除 过 程 包含 权 值 
衰减 过 程 作为 其 特殊 例子 ; 
特别 地 ， 对 于 大 的 w。， 除 
了 比例 因子 外 式 (4.%7) 简 化 -5.0 -4.0 -3.0 -2.0 -1.0 0 1.0 2.0 3.0 4.0 5.0 Wo 
为 式 (4.96) 的 形式 。 图 4-22 复杂 性 惩罚 项 (w/w0)?/[1+ (wlw Y JRF w/w 的 图 示 

严格 地 讲 ， 权 值 剔除 
过 程 同样 不 是 多 层 感知 器 复杂 性 正则 化 的 正确 形式 ， 因 为 它 并 不 符合 式 (4.95) 所 指定 的 描述 。 
虽然 如 此 ,在 选择 适当 的 参数 wo 的 情况 下 ， 它 允许 网 络 中 的 一 些 权 值 取得 的 值 比 利 用 权 值 衰 
减 取 得 的 值 更 大 (Hush,1997 )。 

逼近 光滑 器 TE Moody and Rignvaldsson(1997) 中 ， 对 于 具有 单个 隐藏 层 和 输出 层 上 单个 神 
经 元 的 多 层 感知 器 ， 建 议 采 用 如 下 形式 的 复杂 度 惩 罚 项 : 


€.(w) = Dd) wy w Il? (4.98) 
其 中 ww 是 输出 层 的 权 值 ，w; 是 隐藏 层 第 j 个 神经 元 的 权 值 向 量 ; FE p 定义 为 


Prt 对 于 全 局 光滑 器 
P= | a 对 于 局 部 光滑 器 





(4.99) 


HP k Æ FOX,w) 对 x 的 微分 的 阶 数 。 
对 于 一 个 多 层 感知 器 的 复杂 性 正则 化 来 说 ， 通 近 光 滑 器 看 来 比 权 值 训 减 和 权 值 剔 除 更 精 
确 。 与 早期 的 那些 方法 不 同 的 是 ， 它 能 完成 如 下 两 个 工作 : 
1. 它 区 分 隐藏 层 中 和 输出 层 中 突 触 权 值 的 作用 。 
2. 它 捕获 这 两 种 权 值 集合 之 间 的 相互 作用 。 
然而 ， 它 比 权 值 衰减 或 者 权 值 剔 除 具 有 更 复杂 的 形式 ， 因 此 在 计算 复杂 度 上 有 更 多 的 要 求 。 


基于 Hessian 和 矩阵 的 网 络 修 前 


这 第 二 个 网 络 修剪 方法 的 基本 思想 是 利用 误差 曲面 的 二 次 导数 信息 得 到 网 络 复杂 度 和 训练 
误差 性 能 之 间 的 折 中 方案 。 特 别 地 ， 和 构造 误差 曲面 的 一 个 局 部 模型 ， 解 析 地 预测 突 触 权 值 的 扰 
动 所 造成 的 影响 。 构 造 这 样 一 个 模型 结构 的 出 发 点 是 在 运行 点 附近 使 用 Taylor 级 数 给 出 代价 函 
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FE n 的 局 部 通 近 ， 描 述 如 下 : 
€,, (w+ Aw) = E,W) + (w)Aw + 5 Aw" HAW + O( || Aw l|?) (4.100) 


其 中 Aw 是 运行 点 w 的 扰动 ，g(w) 是 在 w 处 的 梯度 向 量 。Hessian 矩阵 同样 在 w 点 进行 计算 ， 
因而 ， 为 了 正确 我 们 用 H(w) 来 表示 它 。 在 式 (4.100) 中 并 没有 这 人 么 做 仅仅 是 因为 简化 记号 。 

要 求 确认 一 组 参数 使 得 从 多 层 感 知 器 上 删除 它们 而 代价 函数 %,, 的 值 增长 最 小 。 为 了 用 
具体 项 解决 这 个 问题 ， 我 们 进行 如 下 逼近 : 

1. 极 值 通 近 。 我 们 假设 参数 仅 在 训练 过 程 收敛 ( 即 网 络 被 完全 训练 ) 之 后 才 被 从 网 络 中 
删除 。 这 个 假设 的 含意 就 是 参数 的 取 值 为 误差 曲面 上 一 个 局 部 最 小 或 者 全 局 最 小 。 在 这 样 一 
种 情况 下 ， 梯 度 向 量 g 可 以 设 为 零 因而 可 以 忽略 式 (4.100) 右 边 的 grAw 项 。 否 则 显著 性 度量 
(将 在 后 边 定义 ) 将 对 当前 问题 无 效 。 

2. 二 次 逼近 。 我 们 假设 局 部 最 小 或 者 全 局 最 小 周围 的 误差 曲面 是 近似 “二 次 的 ”。 因 此 
同样 可 以 忽略 公式 (4.100) 中 的 更 高 次 项 。 

在 这 两 个 假设 之 下 ， 公 式 (4.100) 被 简单 近似 为 

Abn = Elw + Aw) - €(w) ~ 5 Aw" HAW (4.101) 


最 优 脑 损伤 (Optimal Brain Damage, OBD ) 过 程 (LeCun et al. ,1990b ) 通 过 更 进一步 的 假设 简 
化 这 个 计算 : 假设 Hessian 矩阵 H 是 一 个 对 角 阵 。 然 而 ,在 最 优 脑 外 科 (Optimal Brain 
Surgeon, OBS ) 过 程 (Hassibi et al. ,1992 ) 中 并 没有 进行 这 样 的 假设 ， 因 此 ， 它 包含 OBD WEE 
为 它 的 一 个 特例 。 从 这 里 开始 ， 我 们 遵循 OBS 策略 。 

OBS 的 目标 是 置 一 个 突 触 权 值 为 零 使 得 式 (4.101) 中 给 出 的 ,的 递增 增 量 最 小 化 。 令 w; 
(nn) 表示 这 个 特别 的 突 触 权 值 。 这 个 权 值 的 删除 等 价 于 条 件 


Aw; +w; =0 
或 者 17Aw+ai =0 (4.102) 
成 立 ， 其 中 1; 是 除了 第 ; 个 元 素 等 于 单位 1 之 外 其 他 所 有 元 素 均 为 零 的 单位 向 量 。 我 们 现在 
可 以 重申 OBS 的 目标 如 下 (Hassibi et al. ,1992) : 


对 权 值 向 量 增长 变化 Aw 最 小 化 二 次 型 方 Aw HAw， 使 它 满足 约束 条 件 7Aw+ w, HE, 
然后 关于 下 标 i 求 最 小 化 。 

这 里 进行 两 个 层次 上 的 最 小 化 。 一 个 最 小 化 是 当 第 i 个 权 值 向 量 置 零 后 对 仍 保 留 的 突 触 
权 值 向 量 进行 的 ; 第 二 个 最 小 化 是 对 特定 被 修剪 的 向 量 进行 的 。 

为 了 解决 这 个 约束 最 优化 问题 ， 我 们 首先 构建 一 个 Lagrange AF 

- 5 Aw" HAw - (17 Aw + w;) (4.103) 

其 中 入 是 Lagrange FET. SRG Lagrange 函数 S 对 Aw 的 导数 ， 应 用 式 (4.102) 的 约束 条 件 ， 
FAA EM, RM REA AI w 中 的 最 佳 变化 是 


Aw = - mg EL (4.104) 


Lagrange 算 子 S 对 元 素 w, 的 相应 最 优 值 是 
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2 
Ww: 
we 4.105 
S, THT, ( ) 


其 中 HO 是 Hessian 矩阵 HA, [B] ee PRA, i) PCR. BRER i PR fh 
权 值 w 被 删除 ， 对 Aw 进行 优化 而 得 到 的 Lagrange BT S; POW w; 的 显著 性 (saliency)。 事 实 
E, PEH $; 代表 由 于 w 的 删除 而 导致 的 均 方 误差 (性 能 标准 ) 中 的 增长 。 注 意 显著 性 S, 
是 与 wi 成 正比 的 。 这 样 小 的 权 值 在 均 方 误差 上 具有 小 的 影响 。 然 而 ， 从 式 (4.105) 中 我 们 看 
到 显著 性 S, 同样 是 与 逆 Hessian EMA ATOR BO kA. RMR’), AN, 那么 
其 至 小 的 权 值 也 可 能 对 均 方 误差 有 实质 性 的 影响 。 

在 OBS 过 程 中 ， 相 应 于 最 小 特征 值 的 权 值 被 选 为 删除 的 权 值 。 此 外 ， 剩 余 权 值 的 最 佳 
变化 由 公式 (4.104) 给 出 ， 这 说 明 它 们 可 以 沿 逆 Hessian 抢 阵 的 第 i 列 方向 被 校正 。 

Hassibi 等 人 在 他 们 的 论文 中 报告 在 一 些 基 准 的 问题 上 OBS 过 程 比 其 他 通过 使 用 权 值 大 
减 的 过 程 产生 更 小 的 网 络 。 同 时 报告 OBS 过 程 应 用 于 包含 单个 隐藏 层 和 18 000 个 权 值 的 多 
层 感知 器 NETtalk 的 结果 ， 网 络 被 修剪 到 仅 有 1 560 个 权 值 ， 这 在 网 络 的 大 小 上 有 戏剧 性 的 
减少 。 归 因 于 Sejnowski and Rosenberg(1987) 的 NETtalk 将 在 第 13 章 中 讲述 。 

计算 Hessian 46 AIG Hessian SEAN HÆ OBS 过 程 的 公式 基础 。 当 网 络 中 自由 参 
BW 的 数目 很 大 的 时 候 ， 计 算 了 -的 问题 可 能 是 难以 处 理 的 。 设 多 层 感知 器 被 完全 训练 到 
误差 曲面 上 的 局 部 最 小 ， 下 面 我 们 描述 一 个 计算 于 -! 的 可 控 过 程 (Hassibi et al. , 1992). 

为 了 简化 表达 ， 假 设 多 层 感 知 器 具有 单个 输出 神经 元 。 然 后 对 一 个 给 定 的 训练 集 我 们 可 
以 把 代价 函数 表示 为 

(mw) = ay Dy (dn) = oln)? 
其 中 o(n) 是 第 个 样本 输入 时 网 络 的 实际 输出 ， ad(n) 是 相应 的 期 望 响应 ，WN 是 训练 集中 样 
本 的 总 数 。 输 出 o(n) 本 身 可 以 表示 为 
o(n) = F(w,x) 
其 中 下 是 多 层 感 知 器 实现 的 输入 输出 映射 函数 ，x 是 输入 向 量 ，w 是 网 络 的 突 触 权 值 向 量 。 
因此 有 ,对 w 的 一 阶 导数 为 
Te E D Ea) (acm) - o(n)) (4.106) 

8 对 ww 的 二 阶 导 数 或 者 Hessian 矩阵 是 
PE av 





H(N) = 








-4 D (S x(n))) (IFW, x(n) o PEWA An) - o(n)) } 


z1- GD 


(4.107) 
在 这 里 我 们 强调 了 Hessian 矩阵 对 训练 样本 大 小 N 的 依赖 性 。 
在 网 络 是 被 完全 训练 的 假设 下 ， 即 代价 函数 .被 调整 到 误差 曲面 的 一 个 局 部 最 小 值 ， 
说 o(n) 近 似 于 d(n) 是 合理 的 。 在 这 个 条 件 下 我 们 可 以 名 略 第 二 项 ， 这 样 公式 (4.107) 的 下 
近 为 
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H(N) ~ DA x(n) ( 2F(wax(n))) ° (4.108) [22 
为 了 简化 符号 ,定义 Wx 1 向 量 


它 可 以 通过 4.10 节 所 述 的 过 程 来 计算 。 然 后 我 们 就 可 以 用 递归 的 形式 重 写 公 式 (4.108) 如 
F: 


H(n) = DEE (k) = H(n - 1) + E(n)E"(n), n=1,2,%,N (4.110) 


SPI TEE RIOT RES LT 用 的 正确 形式 ， 它 也 称 为 Woodbury 等 式 。 
令 A 和 B 表示 由 关系 
A = B” + CDC’ 
定义 的 正定 矩阵， 其 中 CAD BASE. PGES |, EE A 的 逆 定 义 为 
A’ = B- BC(D+ CBC) CB 
对 于 式 (4.110) 中 所 述 的 问题 我 们 有 
A=Hn),B = H(n-1),C = &(n),D= 1 

因此 应 用 和 矩阵 逆 引 理 得 到 对 于 Hessian 矩阵 求 道 的 递归 计算 公式 : 

H'(n) - Hi H (nr - WE(n)E"(n)H'(n - 1) 

H'(n) = H'(n-1) - 14 E"(n)H Cn ~ DE(n) (4.111) 
注意 式 (4.111) 中 的 分 母 是 一 个 标量 ; 因此 直接 计算 它 的 倒数 。 这 样 ARE Hessian 4 E HO 
过 去 的 值 了 (az -1)， 我 们 就 可 以 计算 它 由 向 量 &(n) 表 示 的 第 n 个 样本 呈现 后 的 更 新 值 
H- (nmn)。 这 个 递归 计算 将 继续 到 N 个 样本 的 整个 集合 被 计算 为 止 。 为 了 初始 化 这 个 算法 我 
们 需要 使 H (0) 很 大 ， 因 为 根据 式 (4.111) 它 是 持续 地 减少 的 。 这 个 要 求 可 以 通过 如 下 设 定 
来 满足 : 

H- (0) = ôI (4.112) 
其 中 5 是 一 个 小 的 正 数 , TEA. ER SRE H-'(n) 总 是 正定 的 。5 的 影 
响 随 着 越 来 越 多 的 样本 出 现在 网 络 中 而 变 得 逐渐 减少 。 
表 4-6 是 脑 外 科 算 法 的 一 个 小 结 (Hassibi and Stork, 1992). 
表 4-6 最 优 脑 外 科 算 法 小 结 

1. 训练 给 定 多 层 感知 器 至 最 小 均 方 误差 。 

2. 利用 4.10 节 所 述 过 程 计算 向 量 
En ) = fori »x(n)) 


其 中 F(w,x(n)) 是 由 具有 全 部 权 值 向 量 w 的 多 层 感知 器 实现 的 输入 输出 映射 ，x(n) 是 输入 向 量 。 
3. 利用 递归 公式 (4.111) 计 算 Hessian 矩阵 的 赣 理 -1。 
4. 寻找 相应 于 最 小 显著 性 的 i: 


w? 


S. =- — 
2[H i,; 
HP] EHR, DATER. WREE S 远 小 于 均 方 咯 ,， 那 么 删除 突 触 权 值 w ， 并 且 执 行 第 4 步 。 
否则 ， 转 第 5 步 。 
5. 通过 应 用 如 下 调整 校正 网 络 中 所 有 的 突 触 权 值 : 
Aw =- tes 
转 第 2 步 


6. 当 不 再 有 权 值 可 以 因为 网 络 中 均 方 误 差 没有 大 的 增加 而 被 删除 的 时 候 停止 计算 。 (也 许 期 望 在 该 点 重新 训练 网 络 。) 
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4.16 反 向 传播 学 习 的 优点 和 局 限 


反 向 传播 算法 作为 指导 多 层 感 知 器 训练 的 最 流行 的 算法 而 出 现 。 基 本 上 ， 它 是 一 个 梯度 
(导数 ) 的 技术 而 不 是 一 个 最 优化 技术 。 反 向 传播 具有 两 个 明显 的 性 质 : 

。 局 部 计算 简单 。 

。 它 实现 权 值 空间 的 随机 梯度 下 降 ( 对 于 突 触 权 值 更 新 按 一 个 模型 接 一 个 模型 的 方式 )。 

多 层 感 知 器 背景 下 的 反 向 传播 学 习 的 这 两 个 属性 导致 它 的 优点 和 缺点 。 


连接 机 制 


反 向 传播 算法 是 依靠 局 部 计算 来 发 现 神经 网 络 信息 处 理 能 力 的 一 个 连接 论 者 范例 的 例 
子 。 计 算 限 制 的 这 种 形式 称 为 局 部 约束 ， 它 是 指 单个 神经 元 实现 的 计算 惟一 受 那 些 与 它 有 物 
理 接触 的 神经 元 的 影响 。 在 人 工 神 经 网 络 的 设计 中 提 介 利用 局 部 计算 有 三 个 主要 的 理由 : 

1. 实现 局 部 计算 的 人 工 神经 网 络 常常 支持 生物 神经 网 络 的 类 比 。 

2. 局 部 计算 的 使 用 允许 极 大 地 减弱 由 于 硬件 错误 所 导致 的 性 能 下 降 ， 因 此 为 容错 网 络 
设计 提供 基础 。 

3. 局 部 计算 支持 使 用 作为 人 工 神经 网 络 实现 的 有 效 方法 的 并 行 体系 结构 。 

按 相 反 的 顺序 来 讨论 这 三 点 ， 第 三 点 在 反 向 传播 学 习 中 被 完全 验证 。 特 别 地 ， 反 向 传播 
算法 已 经 被 许多 研究 者 在 并 行 计算 机 上 成 功 地 实现 了 ， 并 且 已 经 开发 用 硬件 实现 多 层 感 知 器 
的 VLSI 体系 结构 (Hammerstrom,1992a,1992b)。 正 如 在 Kerlirzin and Vallet(1993) 的 研究 中 所 述 
的 那样 ， 第 二 点 的 验证 可 由 反 向 传播 算法 的 应 用 中 采取 某 些 防范 措施 而 得 到 。 对 于 第 一 点 ， 
和 反 向 传播 学 习 的 生物 似 真 性 有 关 ， 基 于 如 下 理由 它 受到 严重 的 质疑 (Shepherd, 1990b; Crick, 
1989; Stork , 1989) : 

1 在 一 个 多 层 感知 器 神经 元 之 间 的 双向 帘 触 连接 可 以 假设 权 值 是 兴奋 的 或 者 是 抑制 的 。 
然而 ， 在 真实 的 神经 网 络 系统 中 ， 神 经 元 经 常 表现 为 一 个 或 者 另 一 个 。 这 就 是 在 神经 网 络 模 
型 中 所 作 的 不 真实 的 假设 中 最 严重 的 一 个 。 

2. 在 一 个 多 层 感 知 嚣 中， 忽略 了 荷尔蒙 的 和 其 他 类 型 的 全 局 通信 的 类 型 。 在 真实 的 神 
经 元 系统 中 ， 这 些 全 局 通信 对 于 例如 激励 、 注 意 和 学 习 的 状态 设置 功能 是 关键 的 。 

3. 在 反 向 传播 学 习 中 ， 一 个 突 触 权 值 是 通过 一 个 前 突 触 活动 和 一 个 独立 于 后 突 触 活动 
的 误差 (学 习 ) 信 和 号 来 修改 的 。 从 神经 生物 学 证 据 表明 是 另 一 种 情况 。 

4. 从 神经 生物 学 的 角度 来 看 ， 反 向 传播 学 习 的 实现 要 求 信息 沿 着 轴 突 迅速 地 反 向 传播 。 
在 脑 中 实际 发 生 的 这 样 操作 看 起 来 简直 是 不 可 能 的 。 

5. 反 向 传播 学 习 意 味 着 一 个 “教师 ”的 存在 ， 这 在 脑 中 将 假设 存在 一 个 具有 特殊 性 质 的 
神经 元 集合 。 这 样 的 神经 元 的 存在 在 生物 学 上 是 难以 置信 的 。 

然而 ， 这 些 神经 生物 学 上 的 疑虑 并 没有 减少 反 向 传播 学 习作 为 信息 处 理 的 一 个 工具 在 工 
程 上 的 重要 性 ， 这 通过 它 在 无 数 大 不 相同 的 领域 中 的 成 功 应 用 得 到 了 证 明 ， 其 中 包括 神经 生 
物 现象 的 仿真 在 内 (例如 ， 见 Robinson(1992) )。 


特征 检测 
正如 4.9 节 所 讨论 的 那样 ， 通 过 反 向 传播 算法 训练 的 多 层 感 知 器 的 隐藏 神经 元 作为 特征 
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检测 器 扮演 着 重要 的 角色 。 利 用 多 层 感 知 器 的 这 个 重要 性 质 的 一 个 新 方法 是 使 用 它 作为 复制 
器 或 者 恒 等 映射 ( Rumelhart et al. ,1986b; Cottrel et al. ,1987 ) 。 图 4-23 表明 对 于 使 用 单个 隐藏 
层 的 多 层 感知 器 情况 下 这 是 如 何 完 成 的 。 网 络 构 形 满足 如 下 的 结构 要 求 ， 正 如 图 4-23a 表明 
的 那样 : 

。 输入 和 输出 层 神 经 元 数目 具有 相同 的 大 小 m。 

。 隐藏 层 的 神经 元 个 数 M 小 于 m。 

。 网 络 是 完全 连接 的 。 





输入 信号 输入 信号 的 估计 全 
x 


b) c) 


图 4-23 
a) 具 有 一 个 隐藏 层 的 作为 编码 器 的 复制 器 网 络 ( 恒 等 映 射 ) b) 复 制 网 络 
监督 训练 的 方 框图 “) 作 为 解码 器 的 复制 器 网 络 部 分 


一 个 给 定 的 模式 x 同 时 作为 输入 层 的 刺激 和 输出 层 的 期 望 响 应 。 输 出 层 的 实际 响应 叉 是 
打算 用 作 x 的 “估计 ”。 通 过 常用 的 方法 使 用 反 向 传播 算法 训练 网 络 ， 估 计 误 差 向 量 (x - 8) FF 
为 误差 信号 处 理 ， 如 图 4-23b 所 示 。 这 个 训练 是 在 无 监督 情形 下 完成 的 ( 即 不 需要 教师 )。 借 
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助 多 层 感知 器 的 设计 所 建立 的 特殊 结构 优点 ， 通 过 它 的 隐藏 层 约束 网 络 以 实现 恒 等 映射 。 输 
入 模式 的 一 个 编码 形式 ， 用 * 表示 ， 它 是 在 隐藏 层 的 输出 中 产生 的 ， 如 图 4-23a 所 示 。 事 实 
上 ， 完 全 训练 的 多 层 感知 器 充当 着 “编码 器 "的 角色 。 为 了 重 构 初 始 输入 模式 x 的 估计 双 ( 即 
实现 解码 ) ， 我 们 将 编码 信号 应 用 于 复制 器 网 络 隐藏 层 ， 如 图 4-23c 所 示 。 事 实 上 ， 后 面 的 
网 络 扮演 “解码 器 ”的 角色 。 如 果 我 们 使 得 隐藏 层 的 大 小 M 与 输入 /输出 层 大 小 m 相 比 越 小 ， 
那么 图 4- 23a 的 结构 作为 一 个 数据 压缩 系统 的 作用 就 越 大 : 。 
函数 有 逼近 

通过 反 向 传播 算法 训练 的 多 层 感知 器 自身 表明 是 一 个 炭 套 sigmoid 函数 ， 在 单个 输出 的 
情形 下 用 紧凑 形式 写 为 

Fw) = 以 2 人 9(… ol Siw.) ))) (4.113) 

TE OAT sigmoid RR ,是 从 最 后 个 隐藏 层 的 神色 ATE k 到 单个 输出 神经 

突 触 权 值 ， 依 此 类 准 得 到 其 他 突 甬 术 信 和， 是 输 人 向量 x 的 第 i ACR. MRA 
AIRISA, 其 排列 顺序 首先 按 层 ， 然 后 按 每 层 中 的 神经 元 ， 最 后 按 神经 元 中 的 
突 触 。 式 (4.113) 中 嵌入 非 线性 函数 的 设计 在 笃 典 逼近 论 中 是 不 常见 的 。 正 如 4.13 节 讨论 的 
它 是 一 个 通用 逼近 器 。 

在 台 近 背景 下 ， 使 用 反 向 传播 学 习 提供 另 -一 个 有 用 的 性 质 。 直 党 的 知识 上 暗示 具有 光滑 激 
活 函数 的 多 层 感知 器 的 输出 函数 的 导数 应 该 同样 逼近 未 知 输入 - 输出 映射 的 导数 。 在 Homik 
et al.(1990) 中 介绍 了 这 个 结果 的 证 明 。 实 际 上 ,证 明 多 层 感知 器 能 逼近 传统 意义 下 不 可 微 的 
函数 ， 但 拥有 像 在 分 段 可 微 函 数 情形 下 的 广义 导数 的 函数 。Homik 等 人 报告 的 逼近 结果 提供 
了 以 前 利用 多 层 感知 器 帝 近 一 个 函数 和 它 的 导数 所 缺少 的 理论 根据 。 


计算 的 效率 


算法 的 计算 复杂 度 通 常 是 用 乘法 、 加 法 的 次 数 和 它 的 实现 所 涉及 的 存储 量 来 衡量 的 ， 如 
第 2 章 所 讨论 的 那样 。 一 个 学 习 算法 从 一 次 迭代 到 下 一 次 迭代 ， 若 它 计算 复杂 度 更 新 的 可 调 
整 参数 的 数目 是 多 项 式 的 ， 我 们 就 说 这 个 算法 是 计算 有 效 的 。 在 这 个 基础 上 ， 它 也 可 以 说 是 
反 向 传播 算法 是 计算 有 效 的 。 特 别 地 ， 在 使 用 它 进行 包含 全 部 的 突 触 权 值 W( 包 括 偏 置 ) 的 
多 层 感 知 器 的 训练 中 ， 它 的 计算 复杂 度 在 W 中 是 线性 的 。 反 向 传播 算法 的 这 个 重要 性 质 可 
以 通过 检查 如 4.5 节 所 述 的 完成 前 向 通过 和 反 向 通过 所 涉及 的 计算 而 容易 得 到 证 明 。 在 前 向 
通过 中 ,计算 涉及 的 突 触 权 值 是 那些 网 络 中 不 同 神经 元 的 诱导 局 部 域 所 属 的 权 值 。 这 里 我 们 
从 式 (4.44) 看 到 这 些 计 算 对 网 络 的 突 触 权 值 是 线性 的 。 在 反 向 通过 中 ， 涉 及 突 触 权 值 的 仅 有 
的 计算 是 那些 分 别 由 式 (4.46) 和 (4.47) 所 述 的 属于 (1) 隐 藏 神经 元 的 局 部 梯度 ， 和 (2) 突 触 权 
值 自身 的 更 新 。 在 这 里 我 们 同样 可 以 看 到 这 些 计 算 对 网 络 的 突 触 权 值 全 部 是 线性 的 。 因 此 得 
出 结论 ， 反 向 传播 算法 的 计算 复杂 度 对 W 是 线性 的 ， 即 它 是 0(W)。 


灵敏 度 分 析 


从 使 用 反 向 传播 学 习 中 得 到 的 另 一 个 计算 上 的 好 处 是 它 提供 一 个 有 效 的 方法 ， 通 过 它 我 
们 可 以 进行 由 这 个 算法 实现 的 输入 输出 映射 的 灵敏 度 分 析 。 输 和 人 输出 映射 函数 已 关于 一 个 
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参数 的 灵敏 度 ， 以 w 表示， 定义 为 
OF/F 
9w/w 


然后 考虑 一 个 经 过 反 向 传播 算法 训练 的 多 层 感 知 器 。 令 函数 让 (w) 为 网 络 实现 的 输入 输出 映 
射 ，w 表示 网 络 中 包含 的 所 有 突 触 权 值 (包括 偏 置 ) 向 量 。 在 4.10 节 中 我 们 证 明了 函数 F(w) 
对 权 值 向 量 w 中 所 有 元 素 的 偏 导 数 是 可 以 进行 有 效 计算 的 。 具 体 地 ， 检 查 式 (4.81)、(4.83) 
和 式 (4.114)， 我 们 知道 这 些 偏 导数 计算 涉及 的 复杂 性 对 网 络 包含 权 值 的 总 数 克 是 线性 的 。 
这 种 线性 关系 与 问题 的 突 触 权 值 在 计算 链 中 出 现 的 位 置 无 关 。 


鲁 棒 性 


在 第 3 章 中 我 们 指出 ，LMS 算法 中 能 量 小 的 扰动 只 会 引起 小 的 估计 误差 ， 从 这 个 角度 来 
看 它 是 鲁 棒 的 。 如 果 固 有 的 观察 模型 是 线性 的 ，LMS 算法 是 一 个 8” 最 优 滤波 器 (Hassibi et 
al. ,1993,1996)。 这 意味 着 LMS 算法 最 小 化 由 估计 误差 的 扰动 带 来 的 最 大 能 量 增益 。 

从 男 一 方面 来 看 ， 如 果 固 有 的 观察 模型 是 非 线性 的 ，Hassibi 和 Kailath(1995) 证 明 反 向 传 
播 算法 是 局 部 A” 最 优 滤波 器 。 这 里 使 用 的 “局 部 ”术语 是 指 反 向 传播 算法 中 使 用 的 权 值 向 量 
初始 值 充 分 靠近 权 值 向 量 的 最 优 值 w 以 确保 该 算法 不 陷入 一 个 坏 的 局 部 最 小 中 。 用 概念 性 
的 说 法 ， 看 到 LMS 和 反 向 传播 算法 属于 同一 类 型 的 H” 最 优 滤波 器 是 令 人 满意 的 。 


We Set 


反 向 传播 算法 在 权 值 空间 中 对 于 误差 曲面 上 的 梯度 使 用 “瞬时 估计 ”。 因 此 该 算法 在 本 质 
上 是 随机 的 ; 也 就 是 说 ， 它 在 误差 曲面 上 具有 通过 在 真实 方向 附近 的 锯齿 形 路 线 趋 于 最 小 点 
的 倾向 。 其 实 ， 反 向 传播 学 习 是 最 初 由 Robbins 和 Monro(1951) 提 出 的 所 谓 随 机 逼近 的 统计 学 
方法 的 一 个 应 用 。 因 此 ， 它 倾向 于 缓慢 收敛 。 我 们 可 以 验 明 这 个 性 质 的 两 个 基本 原因 
(Jacobs , 1988) : 

1. 误差 曲面 沿 着 一 个 权 值 方向 是 相当 平坦 的 ， 这 意味 着 误差 曲面 对 这 个 权 值 的 导数 在 
数量 上 是 很 小 的 。 在 这 样 的 情况 下 ， 应 用 于 这 个 权 值 的 调整 是 很 小 的 ， 因 此 在 网 络 误差 性 能 
上 产生 重大 的 降低 可 能 要 求 这 个 算法 的 多 次 迭代 。 或 男 一 方面 ， 误 差 曲 面 沿 着 一 个 权 值 方向 
是 高 度 弯曲 的 ， 在 这 种 情形 下 误差 曲面 对 该 权 值 的 导数 在 数量 上 是 很 大 的 。 在 这 第 二 种 情况 
下 ， 应 用 于 该 权 值 的 调整 是 很 大 的 ， 这 可 能 会 导致 该 算法 越过 误差 曲面 的 最 小 点 。 

2. 负 梯 度 向 量 的 方向 ( 即 代价 函数 对 权 值 向 量 的 负 导 数 ) 可 能 指向 远离 误差 曲面 的 最 小 
值 : 因此 应 用 于 权 值 的 调整 可 能 导致 算法 往 错 误 的 方向 进行 。 

因此 ， 反 向 传播 学 习 的 收敛 速度 倾向 于 相当 缓慢 ， 这 可 能 使 得 计算 起 来 非常 困难 。 根 据 
Saarinen et al.(1992) 的 实验 研究 ， 反 向 传播 算法 的 局 部 收敛 速度 是 线性 的 ， 这 通过 Jacobi i 
阵 和 Hessian 矩阵 几乎 是 秩 亏 损 的 而 得 到 证 明 。 这 些 都 是 神经 网 络 训练 问题 固有 的 病态 性 的 
结果 。Saarinen 等 人 用 两 种 方法 之 一 解释 反 向 传播 学 习 的 线性 局 部 收敛 速度 : 

。 较 高 阶 的 方法 要 求 更 多 的 计算 量 未 必 收 敛 得 更 快 ， 在 这 个 意义 上 反 向 传播 (梯度 下 

降 ) 是 可 接受 的 ; 

。 大 规模 神经 网 络 的 训练 问题 的 实施 有 如 此 大 的 固有 困难 以 至 于 没有 任何 监督 学 习 的 

策略 是 可 行 的 ， 而 使 用 如 像 预 处 理 的 其 他 方法 可 能 是 必需 的 。 


sh = (4.114) 
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在 4.17 节 中 我 们 更 全 面 地 探讨 收敛 问题 ， 并 且 在 第 8 章 中 探讨 和 输入 的 预 处 理 问题 。 
局 部 最 小 值 


对 反 向 传播 算法 性 能 造成 影响 的 误差 曲面 的 另 一 个 特点 是 除了 全 局 最 小 值 之 外 的 局 部 最 
小 值 ( 即 孤立 加权) 的 出 现 。 由 于 反 向 传播 学 习 基 本 上 是 一 个 疏 映 技术， 因此 它 存 在 陷 人 局 部 
最 小 值 的 危险 ， 此 处 突 触 权 值 的 每 个 微小 变化 都 引起 代价 函数 的 增长 。 但 在 权 值 空间 的 别 的 
某 个 地 方 存在 另外 一 个 罕 触 权 值 的 集合 ， 它 的 代价 函数 的 值 比 在 网 络 被 停止 处 的 局 部 最 小 值 
更 小 。 很 明显 不 希望 使 学 习 进 程 在 局 部 最 小 值 处 停止 ， 特 别 是 如 果 它 是 处 于 离 全 局 最 小 值 很 
远 的 话 。 

反 向 传播 学 习 中 局 部 最 小 值 的 问题 在 Minsky and Paper(1988) 经 典 著 作 的 扩充 版 本 的 结 
语 中 被 提 了 出 来 ， 结 语 的 绝 大 部 分 注意 力 都 集中 讨论 分 为 两 册 的 Rumelhar 和 McClelland 
(1986) 著 作 : «Parallel Distributed Processing》。 在 这 本 书 的 第 8 章 中 声称 对 于 反 向 传播 学 习 来 
说 ， 陷 人 一 个 局 部 最 小 值 在 一 个 实际 问题 中 是 罕见 的 。Minsky 和 Papert 通过 指出 模式 识别 整 
个 历史 过 程 的 相反 表现 进行 反驳 。Gori 和 Tesi(1992) 描 述 一 个 简单 的 例子 ， 尽 管 模式 中 一 个 
非 线性 的 可 分 集合 能 够 通过 选择 具有 单个 隐藏 层 的 网 络 进行 学 习 ， 但 是 反 向 传播 学 习 还 是 可 
能 在 一 个 局 部 最 小 值 处 停止 31。 


规模 


在 原则 上 ， 诸 如 由 反 向 传播 算法 训练 的 多 层 感知 器 之 类 的 神经 网 络 提供 通用 计算 机 器 的 
潜在 可 能 。 然 而 ， 要 充分 实现 这 种 潜能 ， 我 们 必须 克服 规模 (scaling) 问 题 ， 它 是 指 随 计算 任 
务 在 大 小 和 复杂 性 上 的 增加 网 络 表 现 的 优 劣 (如 由 训练 所 需 时 间 和 可 得 到 的 最 优 泛 化 性 能 来 
衡量 ) 的 问题 。 在 度量 计算 任务 大 小 和 复杂 度 的 许多 可 能 的 办 法 中 ， 由 Minsky 和 Papert 
(1969，1988) 定 义 的 谓词 阶 (predicate order) 提 供 了 最 有 用 和 最 重要 的 标准 。 

为 了 解释 一 个 谓词 意味 着 什么 , 令 亚 (X) 表 示 一 个 只 能 有 两 个 取 值 的 函数 。 通 常 我 们 取 
炎 ( 革 ) 的 两 个 值 为 0 和 1。 但 通过 取 值 为 假 (FALSE) 或 真 (TRUE)， 可 以 认为 亚 () 是 一 个 谓 
词 ， 即 一 个 可 变 的 陈述 ， 其 真 和 假 依赖 于 变量 的 选择 。 例 如 ， 我 们 可 以 写 出 

1 ERE X 是 一 个 圆 
Your = [0 ane x RET (4.115) 
使 用 谓词 的 思想 ，Tesauro and Janssens(1988) 实 现 了 一 个 涉及 使 用 由 反 向 传播 算法 训练 的 多 层 
感知 器 来 学 习 计算 奇偶 函数 的 实验 研究 。 奇 偶 函 数 是 定义 如 下 的 布尔 谓词 : 
1 若 1 了 1 是 奇数 
Weary (X) = F 否则 (4.116) 
它 的 阶 数 等 于 输入 的 个 数 。Tesauro and Janssens 进行 的 这 个 实验 显示 ， 网 络 学 习 计算 奇偶 函 
数 所 需 的 时 间 与 输入 个 数 ( 即 计算 的 谓词 阶 数 ) 是 指数 关系 ， 并 且 使 用 反 向 传播 算法 学 习 任意 
复杂 的 函数 的 计划 可 能 是 过 分 乐观 的 。 

一 般 认 为 对 一 个 多 层 感 知 器 进行 完全 连接 是 失策 的 。 因 此 ， 在 此 背景 下 ， 我 们 可 以 提出 
如 下 问题 : 给 定 一 个 不 应 被 完全 连接 的 多 层 感 知 器 ， 网 络 的 突 触 连接 将 如 何 分 配 ? 这 个 问题 
在 小 规模 的 应 用 情况 并 不 是 主要 考虑 的 问题 ， 但 它 对 利用 反 向 传播 学 习 解 决 现实 世界 中 大 规 
模 的 问题 的 成 功 应 用 是 至 关 重 要 的 。 
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减轻 规模 问题 的 一 个 有 效 办 法 是 发 展 对 当前 问题 的 认识 (可 能 是 通过 神经 生物 学 的 类 比 ) 
并 利用 它 增 加 多 层 感知 器 体系 结构 设计 的 灵活 性 。 特 别 地 ， 网 络 体系 结构 和 加 于 网 络 突 触 权 
值 上 的 约束 应 该 这 样 设计 使 得 关于 任务 的 先 验 知识 合并 到 网 络 的 组 成 中 去 。 这 种 设计 策略 在 
4.19 节 中 在 关于 光学 字符 识别 的 问题 中 说 明 。 


4.17 反 向 传播 学 习 的 加 速 收敛 


在 前 一 节 中 盖 明 了 反 向 传播 算法 收敛 速率 可 能 缓慢 的 主要 原因 。 本 节 我 们 讨论 一 些 得 到 
的 启发 ， 它 们 为 思考 如 何 通过 学 习 率 的 调整 以 加 速 反 向 传播 学 习 的 收敛 提供 有 用 的 方针 。 具 
体 的 启发 如 下 (Jacobs,1988) ; 

启发 1 代价 函数 的 每 一 个 可 调整 网 络 参数 都 应 具有 自己 的 学 习 率 参数 。 

在 这 里 我 们 注意 反 向 传播 算法 可 能 缓慢 地 收敛 是 因为 使 用 固定 的 学 习 率 参数 不 能 适合 于 
误差 曲面 地 每 一 部 分 。 换 名 话说， 一 个 突 触 权 值 调节 的 适宜 的 学 习 率 参数 是 不 必 适 宜 于 网 络 
中 其 他 突 触 权 值 的 调节 的 。 启 发 1 通过 为 网 络 中 每 个 可 调节 的 突 触 权 值 (参数 ) 指 定 不 同 的 学 
习 率 参数 认 知 这 个 事实 。 

启发 2 每 一 个 学 习 率 参数 都 应 该 被 允许 在 每 次 选 代 中 取 不 同 的 值 。 

沿 着 单个 权 值 维 的 不 同 区域 ， 误 差 曲 面 通常 有 不 同 的 行为 。 为 了 适应 这 种 变化 ， 启 发 2 
规定 学 习 参 数 在 每 次 迭代 中 不 同 。 有 趣 的 是 ， 这 个 启发 在 线性 单元 的 情形 中 被 明确 地 建立 
(Luo, 1991 )。 

启发 3 当代 价 函 数 对 一 个 突 触 权 值 的 导数 在 算法 中 几 次 连续 和 迭代 具有 相同 的 代数 符号 
的 时 候 ， 这 个 特殊 权 值 的 学 习 率 参数 应 该 被 增加 。 

在 权 值 空间 中 当前 运行 点 所 处 误差 曲面 沿 一 个 特别 的 权 值 维 可 能 是 相当 平坦 的 部 分 。 这 
可 以 导致 代价 函数 关于 权 值 的 导数 ( 即 误差 曲面 的 梯度 ) 在 连续 儿 次 算法 迭代 中 保持 相同 代数 
符 导 ， 因 此 指向 相同 的 方向 。 启 发 3 规定 在 这 样 的 情形 下 可 以 通过 适当 增加 学 习 率 参数 来 减 
少 通过 误差 曲面 的 平坦 部 分 所 需 的 迭代 次 数 。 

启发 4 当代 价 函 数 对 个 别 突 触 权 值 的 导数 的 代数 符号 对 于 连续 几 次 算法 和 迭代 发 生 改 变 
的 时 候 ， 该 权 值 的 学 习 率 参数 应 该 减少 。 

当 在 权 值 空间 中 当前 运行 的 点 所 位 于 误差 曲面 的 部 分 沿 所 讨论 的 权 值 维 呈 现 峰 值 和 深谷 
〈 即 曲面 高 度 弯 曲 ) 的 时 候 ， 代 价 函 数 对 该 权 值 的 导数 在 这 次 迭代 到 下 次 选 代 时 改变 它 的 符号 是 
可 能 的 。 为 了 防止 权 值 调节 出 现 振 荡 ， 启 发 4 规定 该 特殊 权 值 的 学 习 率 参数 应 该 适当 地 减少 。 

值得 注意 的 是 ， 根 据 这 些 启发 对 每 个 突 触 权 值 使 用 不 同 的 和 随时 间 变 化 的 学 习 率 参数 ， 
从 基本 上 改变 了 反 向 传播 算法 。 特 别 地 ， 被 修改 后 的 算法 不 再 进行 最 陡 下 降 方 向 的 搜索 。 更 
准确 地 说 ， 应 用 于 突 触 权 值 的 调整 是 基于 (1) 误 差 曲面 对 权 值 的 偏 导数 ， 和 (2) 在 权 值 空间 当 
前 运行 点 上 误差 曲面 在 沿 不 同 权 值 维 的 曲率 估计 。 

此 外 ， 所 有 4 个 启发 都 满足 局 部 约束 ， 这 是 反 向 传播 学 习 的 固有 特征 。 不 幸 的 是 ， 对 局 
部 约束 的 坚持 限制 了 这 些 启 发 的 领域 ， 因 为 存在 它们 不 能 工作 的 误差 曲面 。 然 而 ， 根 据 这 些 
启发 对 反 向 传播 算法 的 修改 确实 具有 实用 价值 04 。 


4.18 作为 最 优化 问题 看 待 的 有 监督 学 习 
在 本 节 用 一 种 与 前 面 几 节 讨论 有 很 大 不 同 的 关于 有 监督 学 习 的 观点 。 特 别 地 ， 我 们 把 多 
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层 感知 器 的 监督 训练 看 作 是 一 个 数值 最 优化 问题 。 在 这 个 背景 下 我 们 首先 指出 使 用 有 监督 学 
习 的 多 层 感 知 器 的 误差 曲面 是 突 触 权 值 向 量 w 的 高 度 非 线性 函数 。 邻 人..(w) 表 示 在 训练 样本 
上 平均 的 代价 函数 。 使 用 Taylor 级 数 在 误差 曲面 当前 点 w(x) 附近 我 们 可 以 展开 %,(w)， 例 
如 ， 如 式 (4.100) 所 描述 的 ， 这 里 重 写 为 依赖 于 n 的 形式 


€,(w(n) + Aw(n)) = B(w(n)) + gr(n)Aw(n) + 证 Awr(n)HCn)Aw(n) 


+ 三 次 和 更 高 次 项 ) (4.117) 
其 中 g(n) 是 局 部 梯度 向 量 ， 定 义 为 


g(n) 
H(n) 是 局 部 Hessian 和 矩阵， 定义 为 


_ 7€,,(w) 


Jw (4.118) 





w= wn) 


(4.119) 
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在 以 反 向 传播 算法 为 例 的 最 能 下 降 方向 方法 中 ， 应 用 于 突 触 权 值 向 量 w(n) 的 调节 量 

Aw(z) 定 义 为 

Aw(n) =- ng(n) (4.120) 
其 中 为 学 习 率 参数 。 事 实 上 ， 最 陡 下 降 方向 方法 是 在 运行 点 w(n) 局 部 邻 域 对 代价 函数 的 线 
性 有 逼近 基础 上 进行 计算 的 。 在 这 样 的 处 理 中 ， 它 依赖 梯度 向 量 g(=) 作 为 关于 误差 曲面 局 部 信 
息 的 惟一 来 源 。 这 个 限制 具有 一 个 有 利 的 效果 :实现 的 简单 性 。 不 幸 的 是 ， 它 同样 具有 一 个 不 
利 的 影响 ,缓慢 的 收敛 速度 ， 特 别 是 在 大 规模 问题 的 情形 下 这 是 令 人 烦恼 的 。 在 权 值 更 新 的 公 
式 中 包含 动量 项 是 使 用 误差 曲面 二 阶 信息 的 大 胆 尝 试 ， 这 是 具有 某 些 帮 助 的 。 然 而 ， 由 于 在 必 
须 由 设计 者 “调整 ”的 参数 列表 中 增加 一 项 ， 它 的 使 用 使 得 训练 过 程 的 管理 更 费时 间 。 

为 了 使 多 层 感知 器 的 收敛 性 能 有 显著 的 改善 (与 反 向 传播 学 习 相 比 ) ， 必 须 使 用 训练 过 程 
的 高 阶 信息 。 我 们 可 以 通过 调用 误差 曲面 在 当前 点 wW AEZKERAREN, REAR 
(4.117) 可 以 发 现 应 用 于 突 触 权 值 向 量 w(n) 的 调整 量 的 最 优 值 Aw(n) 由 下 式 给 出 : 

Aw’ (n) = H'(n)g(n) (4,121) 
其 中 HH '(n) 是 Hessian 矩阵 开 (m) 的 道 ， 假 设 它 是 存在 的 。 式 (4.121) 是 Newton 方法 的 核心 。 
如 果 代 价 函数 %,,(w) 是 二 次 的 ( 即 式 (4.117) 中 的 三 次 和 更 高 次 项 为 零 )， 那 么 Newton 方法 一 
次 迭代 后 收敛 到 最 优 值 位 置 。 然 而 ，Newton 方法 对 多 层 感 知 器 的 有 监督 训练 的 实际 应 用 受到 
如 下 因素 的 阻碍 ; 
。 它 要 求 计算 Hessian 矩阵 的 道 H (nz)， 这 可 能 在 计算 上 是 昂贵 的 。 
”为 了 使 再 (nm) 是 可 计算 的 ，H(n) 必 须 是 非 奇 异 的 。 在 H(n) 为 正定 的 情况 下 ， 当 
前 点 w(n) 周 围 的 谋 差 曲面 可 以 描述 为 “ 凸 碗 状 ”。 不 幸 的 是 ， 并 不 能 保证 多 层 感 知 
器 误差 曲面 的 Hessian 矩阵 总 是 符合 这 样 的 描述 。 而 且 ， 还 有 Hessian 矩阵 秩 亏 损 的 
潜在 问题 ( 即 并 不 是 所 有 的 H 的 列 都 线性 无 关 ) ， 这 是 由 于 网 络 训练 问题 中 固有 的 病 
态 性 所 造成 的 (Saarinen et al. ,1992 ); 这 只 会 使 得 计算 任务 更 加 困难 。 

。 当代 价 函数 6, (w) 是 非 二 次 的 时 候 ，Newton 方法 的 收敛 性 得 不 到 保证 ， 这 使 得 它 不 

适合 于 训练 多 层 感 知 器 。 
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为 了 克服 其 中 某 些 困难 ， 我 们 可 以 使 用 拟 Newton 方法 ， 它 仅仅 要 求 梯 度 向 量 g 的 一 个 估计 
值 。 这 种 Newton 方法 的 修正 不 经 过 计算 矩阵 的 道 而 直接 得 到 北 怎 阵 了 保持 正定 的 估计 。 
通过 使 用 这 样 的 估计 ， 拟 Newton 方法 保证 在 误差 曲面 上 是 下 降 的 。 然 而 ， 我 们 仍然 有 一 个 
OCW ) 的 计算 复杂 性 ， 其 中 WW 是 权 值 向 量 w 的 大 小 。 因 此 拟 Newton 方法 在 计算 上 是 不 切实 
际 的 ， 除 非 对 一 个 非常 小 规模 的 神经 网 络 进行 训练 。 关 于 拟 Newton 方法 的 讨论 将 在 本 节 后 
面 给 出 。 

另 一 类 型 的 二 阶 最 优化 方法 包括 共 轿 梯度 方法 ， 它 被 认为 是 一 种 介 于 最 陡 梯 度 方法 和 
Newton 方法 之 间 的 方法 。 使 用 共 斩 梯度 方法 的 动机 是 期 望 加 速 在 最 陡 梯 度 方 法 中 经 历 的 特别 
缓 爆 的 收敛 速度 ， 同 时 避免 在 Newton 方法 中 要 求 对 Hessian 矩阵 的 估 值 、 存 储 和 求 逆 。 在 二 
次 最 优化 方法 中 ， 广 为 人 知 的 是 共 恩 梯度 方法 也 许 是 可 用 于 大 规模 问题 的 惟一 方法 ， 大 规模 
问题 就 是 具有 几 百 个 或 几 千 个 可 调整 参数 的 问题 (Fleteher, 1987 )。 因 此 它 非常 适合 于 训练 多 
层 感 知 器 ， 典 型 的 应 用 包括 函数 允 近 、 控 制 和 时 间 序 列 分 析 ( 即 回归 分 析 )。 


共 扼 梯度 方法 


共 扼 梯度 方法 属于 人 所 共 知 的 共 扼 方向 方法 的 二 阶 最 优化 方法 的 一 类 。 我 们 通过 考虑 二 
次 函数 


f(x) = $x" Ax -b’x+e (4,122) 


的 最 小 化 来 开始 这 些 方法 的 讨论 ， 其 中 x 是 一 个 W x1 参数 向 量 ,A 是 Wx WORE 
E, b 是 Wx1 向 量 ,，c 是 标量 。 二 次 函数 f(x) 的 最 小 化 是 通过 赋予 x 如 下 惟一 值得 到 的 : 
x" = A'b (4,123) 
这 样 f(x) 的 最 小 化 和 求解 方程 Ax”=b 的 线性 系统 就 是 等 价 问题 。 
SEM A， 如 果 下 述 条 件 满足 ， 我 们 称 非 零 向 量 s(0) ，s(1)，…，s( 下 -1) 的 集合 是 
和 A- 共 扼 的 ( 即 在 矩阵 A 下 互 不 干扰 ): 
s'(n)As(j) = 0 MA ngj (4.124) 
如 果 ASF AE, FRSA Te ELERE. 
例 4.1 为 了 解释 A - FPR, SR 4-24a 所 示 属 于 二 维 问题 的 情形 。 图 中 所 示 椭 





圆 轨迹 对 应 于 方程 (4.122) 在 x », 
x= [xo, x1]” 
对 二 次 函数 f(x) 指 定 某 个 常数 值 
的 图 形 ， 图 4-24a 也 包括 一 对 关于 j 
ERE A RODNE. BER 
们 通过 变换 - - 
v = Ax ° ° 


fv, 其 中 A“ 是 A 的 平方 根 。 这 

样 图 4-24a 中 椭圆 轨迹 就 被 安 换 为 a) b) 

图 4-24b 所 示 的 圆 形 轨 迹 ， 图 4- 图 4.24 asta 

24a 中 A- 共 斩 的 方向 向 量 对 也 被 a) 二 维权 值 空间 的 椭圆 轨迹 b) 椭 圆 轨 迹 到 圆 形 轨迹 的 变换 
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转换 为 图 4-24b 中 的 一 对 正 交 方向 向 量 。 | 
关于 A - 共 固 向 量 的 一 个 重要 性 质 是 它们 是 线性 无 关 的 。 我 们 可 以 用 反 证 法 证 明 这 个 性 
质 。 令 这 些 向 量 的 其 中 之 一 ， 比 如 s(0)， 用 其 余 殉 - 1 个 向 量 的 线性 组 合 表示 如 下 : 


s(0) = Fasl) 
两 边 乘 以 A 并 用 s(0) 和 As(0) 作 内 积 得 到 
s’(0)As(0) = 57 4)8"(0)As()) = 0 

然而 ， 有 两 个 原因 使 得 二 次 型 s"(0)As(0) 不 可 能 为 零 : 矩阵 A 是 被 假设 为 正定 的 ， 向 量 s(0) 
定义 为 非 零 。 因 此 可 以 得 出 A- FESTA BE s(0)，s(1)，…，s( 下 -1) 不 能 是 线性 相关 的 ; 
也 就 是 ， 它 们 必须 是 线性 无 关 的 。 

对 于 给 定 一 个 A - SERENA s0), s1), =, SW- DEHRA, AAW OKIE BH 
A(x) WAAR ETCH fy KENA (Luenberger, 1973; Fletcher, 1987; Bertsekas , 1995) 


x(n +1) = x(n) + n(n)s(n), n=0,1,°°,W-1 (4.125) 
其 中 x(0) 是 任意 的 开始 向 量 ，n(n) 是 由 
f(x(n) + n(n)s(n)) = minf(x(n) + s(n)) (4.126) 


定义 的 标量 。 通 过 选择 9 对 某 个 固定 的 n 寻找 使 函数 /(x(n) + ws(n)) 最 小 化 的 过 程 称 为 线 
搜索 ， 这 表示 一 维 最 小 化 问题 。 

根据 式 (4.124)，(4.125) 和 (4.126)， 我 们 提供 如 下 观察 结果 : 

1. 由 于 A-J s0), s), =, sW- 1) 线 性 无 关 ， 它们 组 成 w 的 向 量 空间 的 
一 组 基 。 

2. 更 新 公式 (4.125) 和 式 (4.126) 的 线 最 小 化 导出 学 习 率 参数 相同 的 公式 ， 即 
s’(n)As(n) 


s’(n)As(n)’ n=0,1,°°,W-1 (4.127) 


n(n) =- 


其 中 g(n) 是 误差 向 量 ， 定 义 为 
l e(n) = x(n) - x" (4.128) 
3. 从 任意 一 个 点 x(0) A, SERED TIA AR EER IER W 次 中 找到 二 次 函数 F(x) 
KERR x” 。 
HEN 1] TK AY EE VE TB ( Luenberger, 1984; Fletcher, 1987; Bertsekas, 1995) : 
ERROR, RAF EFREM RORE MLR UA K BH f(x), 
RAAF FLx) 的 全 局 最 小 值 。 


特别 地 ， 对 于 每 次 迭代 mn， 和 迭代 结果 x(n + 1) 在 通过 某 个 任意 点 x(0) 并 且 由 A- ESCH 
s(0)，s(1)，…，s(n) 扩 展 成 的 线性 向 量 空间 9, 上 使 函数 /(x) 最 小 化 ， 表 示 为 
x(n +1) = arg minf(x) (4.129) 
其 中 空间 9, 定义 为 l 
a, = {x(n) I x(n) = x(0) + Hast} (4.130) 


为 了 使 共 轰 方 向 方法 起 作用 ， 我 们 要 求 具备 一 个 A - HAREE s0), s0), =, 
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s(W-1) RA A. EXPT ERAR RRES AO WARE, MERNI 
逐步 进行 二 次 函数 f(x) 相 继 的 梯度 向 量 的 A - SEI PA RA Pt, A ae 
命名 这 种 方法 。 这 样 ， 除 了 n=0 之 外 ,方向 向 量 的 集合 |s(n)| 并 不 是 预先 指定 的 ， 相 反 它 
是 在 该 方法 的 相继 的 步骤 中 串 行 决定 的 。 


定义 残 差 作为 最 陡 下 降 方向 : 
r(n) = b- Ax(n) (4.131) 
进而 通过 r(n) 和 s(n - 1) 的 线性 组 合 ， 表 示 为 
s(n) = r(n) + B(n)s(n - 1), n=1,2,°°,W-1 (4.132) 


其 中 B(n) 是 需要 确定 的 一 个 比例 因子 。 利 用 方向 向 量 A - SESE, TAO A, 
并 将 结果 表达 式 和 s(n - 1) 作 内 积 ， 然 后 求解 B(n) 的 结果 表达 式 ， 我 们 得 到 


s’(n — 1)Ar(n) 
B(n) =- s(n - 1)As(n — 1) 


通过 式 (4.132) 和 (4.133) ， 我 们 发 现 这 样 得 到 的 向 量 (0), s), =, s(W 1) ASA — SE 
HAY 

根据 递归 公式 (4.132) 产 生 方 向 向 量 依赖 于 系数 B(n)。 由 于 B(n) 目 前 的 表示 形式 ， 对 
B(n) 的 计算 公式 (4.133) 要 求 矩 阵 A 的 知识 。 出 于 计算 上 的 原因 ， 希 望 不 利用 A 的 明显 知识 
的 情况 下 对 B(m) 进 行 计 算 。 这 样 的 计算 可 以 通过 两 个 不 同 的 公式 中 的 一 个 得 到 (Hetcher， 
1987 ) : 

1. Polak-Ribiére 公式 ， 其 中 B(n) 定 义 为 


_ r'(n)(r(n) ~ r(n - 1)) 
Bn) = TFC Drin TI (4.134) 


2.Fletcher-Reeves 公式 ， 其 中 B(n) 定 义 为 
Bon) = oa 
iT FASE GCG ED HK Wb SR Fe ER RE TC A SIERRA RAE, (w) FEAR RAE 
问题 ， 我 们 做 两 件 事情 : 
。 用 一 个 二 次 函数 通 近 代价 函数 员 .,(w)。 也 就 是 说 ， 式 (4.117) 中 三 阶 和 更 高 阶 项 被 忽 
略 ， 这 意味 着 我 们 正在 通 近 误差 曲面 上 的 一 个 局 部 最 小 值 。 在 这 个 基础 上 ， 比 较 式 
(4.117) 和 式 (4.122) ， 我 们 可 以 得 到 表 4-7 显示 的 联系 。 
。 ACHR ERE PAR n(n) 和 B(n) 的 计算 ,使 得 仅仅 要 求 梯度 信息 。 
后 面 一 点 在 多 层 感知 器 中 特别 重要 ， 因 为 它 避免 使 用 Hessian 矩阵 H(n)， 该 矩阵 的 佑 值 是 以 
计算 上 的 困难 著称 的 。 


(4.133) 








(4.135) 





R47 f(x) 和 名 ,(w) 之 间 的 对 应 








二 次 函数 f(x) 代价 函数 名 ,(w) 
参数 向 量 x(=) 突 触 权 值 向 量 wn) 
梯度 向 量 3/(x)/3x HEAR g= /9w 
HEA Hessian 矩阵 H 





没有 Hessian 矩阵 H(z ) 的 明显 知识 时 ， 为 了 计算 决定 搜索 方向 s(z ) 的 系数 B(n)， 我 们 
可 以 利用 式 (4.134) 的 Polak - Ribiére 公 式 或 者 式 (4.135) 中 的 Fletcher - Reeves 公 式 。 这 两 个 
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公式 都 仅 包含 残 差 的 使 用 。 假 定 一 个 二 次 函数 ， 在 共 斩 梯度 方法 的 线性 形式 中 ,Polak - Ribiére 
公式 和 Fletcher - Reeves 公式 是 等 价 的 。 在 另 一 方面 ， 在 非 二 次 代价 函数 的 情形 下 ， 它 们 不 
再 等 价 。 

FEZ KERE, Hp EA R Polak-Ribiére 形式 优先 于 该 算法 的 Fletcher- 
Reeves 式 ， 针 对 这 个 问题 我 们 在 下 面 提供 启发 性 的 解释 (Bertsekas, 1995 )。 由 于 代价 公式 
多 ,,(w) 中 三 阶 与 更 高 阶 项 存在 和 线 搜索 中 可 能 的 不 精确 性 ， 所 产生 的 搜索 方向 的 共 辊 性 逐渐 
丧失 。 这 使 得 所 产生 的 方向 向 量 s(n) 近 似 正 交 于 残 差 r(n) 的 方向 而 算法 可 能 会 陷入“ 墙 
塞 ”。 当 这 种 现象 出 现 的 时 候 ， 我 们 有 r(n) =r(n - 1)， 在 这 种 情况 下 标量 8(n) 接 近 于 零 。 
相应 地 ， 方 向 向 量 s(m) 近 似 于 残 差 r(n)， 从 而 打破 堵塞 。 与 此 相反 的 是 ， 当 使 用 Fleteher- 
Reeves 公式 的 时 候 ， 苍 梯度 算法 在 相似 的 条 件 下 显然 继续 堵塞。 

然而 ， 在 极 少数 的 情况 下 ，Polak-Ribiere 方法 可 以 无 限 循环 下 去 而 不 收敛 。 值 得 庆幸 的 
是 ，Polak-Ribiére 方法 的 收敛 可 以 通过 选择 

B = max! Bx ,0| (4.136) 

得 到 保证 (Shewchuk, 1994), ， 其 中 Bo fe M IÈ (4.134) 的 Polak-Ribiére 公式 定义 的 值 。 如 果 

Bm < 0, 利 用 式 (4.136) 中 定义 的 8 的 值 等 于 重新 开始 共 轿 梯度 算法 。 重 新 开始 运算 等 于 遗忘 
最 后 的 搜索 方向 并 且 在 最 陡 下 降 方向 上 重新 开始 (Shewchuk ,1994 )。 

考虑 下 一 个 计算 参数 n(n ) 的 问题 ， 它 决定 共 轿 梯度 算法 的 学 习 率 。 和 计算 B(n) 的 一 


FE, E nm) 的 首选 办 法 是 避免 必须 使 用 Hessian 矩阵 H(n)。 我 们 回忆 基于 式 (4.126) 的 线 


最 小 化 导出 的 n(n) 的 公式 和 源 于 更 新 公式 (4.125) 得 到 的 mn) 计算 公式 的 相同 。 因 此 我 们 需 
要 一 个 直线 搜索 "中 ， 这 样 的 目的 是 对 最 小 化 函数 8,,(w + qns) CREW, AER wA s 
的 固定 值 ， 现 在 的 问题 是 改变 了 使 得 函数 最 小 化 。 随 着 ?的 变化 ， 自 变量 w+ wm 在 w 的 W 
维 向 量 空间 中 画 出 一 条 直线 ， 因 此 称 为 “直线 搜索 ”"。 直 线 搜索 算法 是 一 个 迭代 过 程 ， 它 为 共 
思 梯 度 算 法 的 每 次 兴 代 产生 一 个 估计 序列 [n(n)}。 当 找到 令 人 满意 的 解 时 ， 直 线 搜索 被 停 
止 。 直 线 搜索 必须 在 每 个 搜索 方向 上 进行 。 

在 文献 中 提出 了 几 种 直线 索 搜 算 方 法 ， 并 且 选 择 一 个 好 的 算法 是 重要 地 ， 因 为 它 对 被 
艇 人 其 中 的 共 扼 梯度 法 的 性 能 具有 深远 的 影响 。 任 何 直线 索 搜 算法 有 两 个 阶段 (Fletcher， 
1987): 

。 包括 阶段 ， 也 就 是 搜索 一 段 区 间 ， 即 包含 一 个 最 小 值 的 非 平凡 区 间 ; 

。 截 段 阶段 ， 在 这 个 阶段 中 ， 区 间 被 截 成 段 ( 即 被 分 割 )， 因 此 产生 一 系列 长 度 越 来 越 

小 的 子 区 间 。 
现在 我 们 叙述 一 个 直接 处 理 这 两 个 阶段 的 曲线 拟 合 过 程 。 

Sb, (MRE RRM HR BR, RRA RR REE, (1) 是 严格 单 峰 的 
(unimodal)( 即 它 在 当前 点 w(n) 的 附近 只 有 单一 的 最 小 值 ) 并 且 是 二 次 连续 可 微 的。 我 们 沿 直 
线 开 始 搜索 过 程 ， 直 到 求 出 满足 条 件 

Enl) > En) > En) MF < M < 市 (4.137) 
ZTA n M q WME 4-25 Bras. HFS, (9) ERAR, (4.137) RREA 
REKEN ,ms] 包 含 函 数 %, (mn) 的 一 个 最 小 值 。 假 设 函 数 名 ,,(m) 充 分 光滑 ， 我 们 可 以 认为 这 
个 函数 在 紧邻 最 小 值 的 区 间 是 抛物 线形 的 。 因 此 ， 我 们 可 以 使 用 反 抛物 线 插值 法 (inverse 





SEE 171 





parabolic interpolation) 3474) EX (Press et al. ,1988 ) 。 具 体 地 ， 这 个 抛物 线 晒 数 可 以 通过 三 个 初 
ean. pm. wie, WE 4-26 所 示 ， 图 中 实 线 对 应 于 名 (n)， 虚 线 表 示 分 段 过 程 的 第 一 次 
BN. S wh 表示 通过 三 点 9、 二 、 广 的 抛物 线 的 最 小 值 点 。 在 图 4-26 所 示 的 例子 中 ， 我 们 
AE (Ns) <E), Ena) <b, (qi )o pH te, ARMED, nl. ie 
一 条 通过 点 mn; 、7:、h 抛 物 线 重复 这 个 过 程 。 上 述 包括 区 间 后 再 分 段 的 过 程 重复 多 次 ， 直 到 
找到 一 个 足够 接近 %,, (7) 的 最 小 值 的 点 ， 此 时 直线 搜索 终止 。 


Cav) 








XF Eav) 的 
HURR 
Bam) H-7- a 
Eaa) TN TT 

Cv(m2) 一 >” 了 一 





an) 





Ti 而 n3 n A Nh ma 
图 4-25 直线 搜索 示意 图 图 4-26 反 抛物 插值 
Brent 的 方法 建立 刚才 所 述 的 三 点 曲线 拟 合 过 程 的 一 个 高 度 精 练 的 形式 (Press et al., 
1988 )。 在 计算 的 任何 特殊 阶段 ，Brent TARIFE, M 函数 六 个 点 的 轨迹 ， 所 有 点 可 能 不 必 


互 不 相同 。 如 前 所 述 ， 抛 物 线 插值 试图 通过 这 些 点 中 的 三 个 。 为 了 使 得 这 个 插值 法 是 可 接受 
的 ， 番 下 的 三 点 必须 满足 一 定 标准 。 最 终结 果 是 一 个 鲁 棒 直 线 搜索 算法 。 


非 线性 共 扼 梯度 算法 小 结 


现在 我 们 给 出 形式 描述 用 于 多 层 感知 器 监督 训练 的 共 扼 梯度 算法 的 非 线 性 ( 非 二 次 ) 形 式 
的 所 有 需要 的 要 素 。 表 4-8 给 出 该 算法 的 小 结 。 


拟 Newton 方法 
重新 开始 讨论 拟 Newton 方法 ， 我 们 发 现 这 些 基本 上 是 梯度 方法 ， 用 更 新 公式 
wn +1) = wn)+nn)s(n) (4.138) 
表示 ， 其 中 方向 向 量 s(n) 用 梯度 向 量 g(n) 定 义 为 
s(n) =- S(n)g(n) (4.139) 


矩阵 S(n) 是 在 每 次 欠 代 中 调整 的 正定 矩阵 。 这 样 做 是 为 了 使 得 方向 向 量 s(n) BEFAS 
fay, Ep 

- (P E IW) (a €, /aw) 
拟 Newton 方法 使 用 误差 曲面 的 二 阶 (曲率 ) 信 息 ， 实 际 上 不 要 求 Hessian HEME H 的 知识 。 这 通 
过 使 用 两 次 连续 迭代 w(n)、w(n + 1) SRE g(n)、g(n + 1) 来 实现 。 令 
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£48 用 于 多 层 感 知 器 有 监督 训练 的 非 线性 共 扼 梯 度 算法 小 结 


初始 化 

除非 权 值 向 量 w 的 先 验 知识 是 可 用 的 ， 否 则 使 用 与 反 向 传播 算法 相似 的 过 程 选择 初始 值 w(0)。 

计算 

. 对 于 w(0)， 用 反 向 传播 算法 计算 梯度 向 量 g(0)。 

设置 s(0) =r(0) = -g(0)。 

. 在 时 间 步 ”， 用 直线 搜索 寻找 充分 最 小 化 名，( 信 的 从 ma)， 对 于 固定 的 w 和 s， 代 价 函 数 旬 ,表示 为 了 的 函数 。 
测试 决定 r(n) 的 欧 几 里 德 范 数 是 否 下 降 到 一 个 特定 的 值 之 下 ， 妈 为 初始 值 | r(0) ‖ 的 很 小 的 一 部 分 。 

. 更 新 权 值 向 量 : 


vA e ù N 


win +1) = wn) + n(n)s(n) 
. 对 于 w(n +1)， 用 反 向 传播 算法 计算 更 新 的 梯度 向 量 g(z+1)。 
设置 r(n+1)= -g(n+1)。 
. 用 Polak-Ribiére 方法 计算 BCn + 1): 





pas D s am [EED paton a) 


O 


. 更 新 方向 向 量 ; 
S(n+l)=rn+l)+B+l)s(Cn) 


10. 设置 n= n+1， 转 第 3 步 。 
停止 准则 ”当下 述 条 件 满足 时 结束 算法 : 

i e(r) |l < ell r(0) || 
其 中 e 是 一 个 指定 的 小 数 。 





q(n) = g(n +1) - g(n) (4.140) 
和 Aw(n) = w(n+1)-w(n) (4.141) 
DER YT A Va a 

a(n) ~ (Rg(n)) Aw(n) (4.142) 


得 到 曲率 信息 。 特 别 地 ， 给 定 歼 个 线性 独立 的 权 值 增 量 Aw(0) Aw(1), =, Aw( W-1) A 
各 自 的 梯度 增 量 g0), q0), =, a W-1), RIP LGB Hessian ERE HUF: 


H ~ [q(0),q(1),°--,q( W - 1) ][Aw(0), Aw(1), =, Aw( W - 1)]~' (4.143) 
FRAME TJ VAT VE Hessian 矩阵 如 下 : 
H ~ [Aw(0),Aw(1),…, Aw(W—1)][q(0),q(1),…,q(W-1)]! (4.144) 


当代 价 函 数 8,,(w) 为 二 次 函数 的 时 候 ， 式 (4.143) 和 (4.144) 是 精确 的 。 

在 最 常用 的 一 类 拟 Newton FAH, AM SCO + 1) 由 它 先前 的 值 S(n)， 向 量 Aw(n) 和 
q(n) 三 项 使 用 递归 算式 得 到 (Fletcher, 1987; Bertsekas, 1995 ): 
Aw(n)Aw'(n) S(n)q(n)q (n)S(n) 





S(n 十 1) = S(n)+ 





q’(n)q(n) q’(n)S(n)q(n) (4.145) 
+ &(n)[q’(n)S(n)q(n) IE v(n)v"(n)] 
Aw(n) S(n)q(n) 
其 中 V = Aw Awn) g Sinala) (4.146) 
并 且 O<t(n)<l ”对 于 所 有 nn (4.147) 


该 算法 由 任意 定义 的 正定 矩阵 S(0) 进 行 初始 化 。 拟 Newton 方法 的 特殊 形式 参数 化 为 如 何 定 
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义 标量 y(n), W FATAR (Fletcher, 1987 ) : 
。 对 于 所 有 n 满足 E(n) =0， 我 们 得 到 Davidon-Fletcher-Powell( DFP) 算 法 ， 它 是 历史 上 


最 初 的 拟 Newton 方法 。 
。 对 于 所 有 n 满足 &(n)=1， 我 们 得 到 Broyden-Fletcher-Goldfarb-Shanno 算法 ， 它 在 目前 
被 认为 是 拟 Newton 方法 的 最 好 形式 。 


H Newton 方法 和 共 扼 梯度 法 的 比较 


我 们 通过 在 非 二 次 最 优化 问题 背景 下 对 拟 Newton 方法 和 共振 梯度 法 的 比较 ， 来 结束 拟 
Newton 方法 的 简要 讨论 (Bertsekas ,1995) : 

。 拟 Newton 方法 和 共 扼 梯度 法 都 避免 使 用 Hessian 矩阵。 然而 ， 拟 Newton JAM hE 
近 逆 Hessian 矩阵 来 进行 下 一 步 计 算 。 所 以 ， 当 直线 搜索 是 精确 的 并 且 充分 逼近 一 个 
具有 正定 Hessian 矩阵 的 局 部 最 小 值 时 ， 拟 Newton 方法 趋 于 逼近 Newton 方法 ， 因 此 
得 到 的 收敛 速度 比 共 扼 梯度 法 可 能 的 收敛 速度 更 快 。 

。 拟 Newton 方法 对 在 最 优化 的 直线 搜索 阶段 精度 的 灵敏 性 不 如 共 扼 梯度 法 。 

。 除了 方向 向 量 S(m) 计 算 相 关 的 矩阵 向 量 乘 法 之 外 ， 拟 Newton 方法 还 要 求 存储 矩阵 
S(n)。 最 后 结果 是 拟 Newton 方法 的 计算 复杂 度 是 0( 咏 )。 相 反 ， 共 扼 梯 度 法 的 计 
算 复杂 度 为 OCW). i, SR 丈 ( 即 权 值 向 量 w 的 个 数 ) 很 大 时 ， 共 扼 梯 度 法 比 
H Newton 方法 在 计算 上 具有 更 大 的 优越 性 。 

正 是 因为 后 面 这 一 点 ， 实 际 上 拟 Newton 方法 限于 小 规模 神经 网 络 的 设计 。 


4.19 RAAE 


到 目前 为 止 ,我 们 都 在 考虑 多 层 感知 器 算法 设计 和 相关 的 问题 。 本 节 我 们 集中 在 多 层 感 
知 器 本 身 的 结构 布局 问题 上 。 特 别 地 ， 我 们 描述 一 类 特定 的 通称 为 卷 积 网 络 的 多 层 感知 器 ; 
这 些 网 络 所 隐 含 的 思想 已 经 在 第 1 章 简要 给 出 。 

一 个 卷 积 网 络 是 为 识别 二 维 形状 而 特殊 设计 的 一 个 多 层 感 知 器 ， 这 种 二 维 形 状 对 平移 、 
比例 缩放 、 倾 斜 或 者 其 他 形式 的 变形 具有 高 度 不 变性 。 这 个 艰巨 的 任务 是 通过 如 下 网 络 在 监 
加 方式 下 学会 的 ， 网 络 的 结构 包括 如 下 形式 的 约束 (TeCun and Bengio, 1995) : 

1, 特征 提取 。 每 一 个 神经 元 从 上 一 层 的 局 部 接受 域 得 到 突 触 输入 ， 因 而 迫使 它 提取 局 
部 特征 。 一 旦 一 个 特征 被 提取 出 来 ， 只 要 它 相对 于 其 他 特征 的 位 置 被 近似 地 保留 下 来 ， 它 的 
精确 位 置 就 变 得 没有 那么 重要 了 。 

2. 特征 映射 。 网 络 的 每 一 个 计算 层 都 是 由 多 个 特征 映射 组 成 的 ， 每 个 特征 映射 都 是 平 
面 形式 的 ,平面 中 单独 的 神经 元 在 约束 下 共享 相同 的 突 触 权 值 集 。 这 种 结构 约束 的 第 二 种 形 
式 具有 如 下 的 有 益 效果 : 

。 平移 不 变性 ， 强 迫 特征 映射 的 执行 使 用 具有 小 尺度 核 的 卷 积 ， 再 接着 用 一 个 sigmoid 

( 挤 压 ) 函 数 。 

。 自由 参数 数量 的 缩减 ， 通 过 权 值 共享 实现 。 

3. 子 抽样 。 每 个 卷 积 层 跟 着 一 个 实现 局 部 平均 和 子 抽样 的 计算 层 ， 由 此 特征 映射 的 分 
办 率 降 低 。 这 种 操作 具有 使 特征 映射 的 输出 对 平移 和 其 他 形式 的 变形 的 敏感 度 下 降 的 作用 。 

正如 所 述 ， 卷 积 网 络 的 发 展 是 由 神经 生物 学 激发 的 ， 这 可 追 湖 到 Hubel 和 Wiesel (1962, 
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1977) 关 于 猫 的 视觉 皮层 上 局 部 灵敏 和 方位 选择 神经 元 的 开拓 性 工作 。 
我 们 强调 指出 在 一 个 卷 积 网 络 所 有 层 中 的 所 有 权 值 都 是 通过 训练 来 学 习 的 。 此 外 ， 网 络 
自动 地 学 习 提 取 它 自身 的 特征 。 
4-27 表明 由 一 个 输入 层 和 四 个 隐藏 层 与 一 个 输出 层 组 成 的 卷 积 网 络 的 体系 结构 布局 。 
这 个 网 络 被 设计 用 于 实现 图 像 处 理 (例如 手写 体 的 识别 )。 输 入 层 由 28 x 28 个 感知 节点 组 成 ， 
接收 已 经 近似 处 于 中 心 位 置 和 在 大 小 上 规整 化 的 不 同 字符 的 图 像 。 然 后 ， 计 算 流 程 在 卷 积 和 
子 抽样 之 间 交 替 ， 如 下 所 述 : 
。 第 一 隐藏 层 进行 卷 积 。 它 由 四 个 特征 映射 组 成 ， 每 个 特征 映射 由 24 x 24 个 神经 元 组 
成 。 每 个 神经 元 指定 一 个 5 x 5 的 接受 域 ; 
。 第 二 隐藏 层 实 现 子 抽样 和 局 部 平均 。 它 同样 由 四 个 特征 映射 组 成 ， 但 其 每 个 特征 映 
射 由 12x 12 个 神经 元 组 成 。 每 个 神经 元 具有 一 个 2 x 2 的 接受 域 ， 一 个 可 训练 系数 ， 
一 个 可 训练 偏 置 和 一 个 sigmoid 激活 函数 。 可 训练 系数 和 偏 置 控制 神经 元 的 操作 点 ; 
例如 ， 如 果 系 数 很 小 ， 该 神经 元 以 拟 线性 方式 操作 。 
。 第 三 隐藏 层 进行 第 二 次 卷 积 。 它 由 12 个 特征 映射 组 成 ， 每 个 特征 映射 由 8 x 8 个 神 
经 元 组 成 。 该 隐藏 层 中 的 每 个 神经 元 可 能 具有 和 上 一 个 隐藏 层 几 个 特征 映射 相连 的 
突 触 连接 。 否 则 ， 它 以 第 一 个 卷 积 层 相似 的 方式 操作 。 
第 四 个 隐藏 层 进行 第 二 次 子 抽样 和 局 部 平均 计算 。 它 由 12 个 特征 映射 组 成 ， 但 每 个 
特征 映射 由 4x4 个 神经 元 组 成 。 否 则 它 以 第 一 次 抽样 相似 的 方式 操作 。 
输出 层 实现 卷 积 的 最 后 阶段 。 它 由 26 个 神经 元 组 成 ， 每 个 神经 元 指定 为 26 个 可 能 
的 字符 中 的 一 个 。 跟 前 面 一 样 ， 每 个 神经 元 指定 一 个 x 4 的 接受 域 。 
相继 的 计算 层 在 卷 积 和 抽样 之 间 的 连续 交替 ， 我 们 得 到 一 个 “ 双 尖 塔 " 的 效果 。 也 就 是 在 
每 个 卷 积 或 抽样 层 ， 随 着 空间 分 辩 率 下 降 ， 与 相应 的 前 一 层 相 比 特征 映射 的 数量 增加 。 卷 积 





之 后 进行 子 抽样 的 思想 是 受到 Hubel 和 Wiesel(1962) 首 先 描述 的 “简单 的 "细胞 后 面 跟着 “复杂 


的 ”细胞 "的 想法 的 启发 而 产生 的 。 
输入 特征 映射 特征 映射 ”特征 映射 ”特征 映射 输出 


28 X 28 4@24 x 24 4@12 x 12 12@8 X 8 12@4 x 4 26@1 x 1 





卷 积 子 采样 卷 积 FRE 卷 积 
图 4-27 用 于 图 像 处 理 如 手写 体 识别 的 卷 积 网 络 (MIT 出 板 社 允许 复制 ) 


图 4-27 所 示 的 多 层 感知 器 包含 近似 100 000 个 突 触 连接 ， 但 只 有 大 约 2 600 个 自由 参数 。 
自由 参数 在 数量 上 显著 地 减少 是 通过 权 值 共享 获得 的 。 学 习 机 器 的 能 力 ( 以 VC 维 的 形式 度 
量 ) 因 而 下 降 ， 这 又 提高 它 的 泛 化 能 力 (LeCun, 1989 ) 。 甚至 更 值得 注意 的 是 对 自由 参数 的 调 
整 通过 反 向 传播 学 习 的 随机 ( 串 行 的 ) 形 式 来 实现 。 

另 一 个 显著 的 特点 是 使 用 权 值 共 享 使 得 以 并 行 形式 实现 卷 积 网 络 变 得 可 能 。 这 是 卷 积 网 
络 对 完全 连接 的 多 层 感知 器 而 言 的 另 一 个 优点 。 
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从 图 4-27 的 卷 积 网 络 中 学 习 的 经 验 有 两 个 方面 。 首 先 ， 通 过 结合 当前 任务 的 先 验 知识 
约束 其 设计 ， 一 个 易 调整 大 小 的 多 层 感 知 器 能 够 学 习 一 个 复杂 的 、 高 维 的 和 非 线性 的 映射 。 
其 次 ， 突 触 权 值 和 偏 置 水 平 可 以 周而复始 地 执行 通过 训练 集 的 简单 反 向 传播 算法 进行 学 习 。 


4.20 小结 和 讨论 


反 向 传播 学 习 已 经 成 为 多 层 感知 器 的 训练 的 标准 算法 ， 它 通常 作为 其 他 学 习 算法 的 基 
准 。 反 向 传播 算法 的 名 字 起 源 于 这 样 一 个 事实 ， 网 络 的 代价 函数 (性 能 度量 ) 对 自由 参数 ( 突 
触 权 值 和 偏 置 ) 的 偏 导数 是 由 通过 网 络 一 层 一 层 反 向 传播 误差 信号 (由 输出 神经 元 计算 ) 所 决 
定 的 。 在 这 样 的 处 理 过 程 中 ， 它 以 非常 高 明 的 方式 解决 信任 赋值 (credit-assignment) 的 问题 。 
该 算法 的 计算 能 力 在 于 它 的 两 个 主要 特征 : 

。 更 新 多 层 感 知 器 突 触 权 值 和 偏 置 的 局 部 方法 。 

© 计算 代价 函数 对 这 些 自由 参数 的 所 有 偏 导数 的 高 效 方法 。 

对 于 训练 数据 的 一 个 给 定 回 合 ， 反 向 传播 算法 以 这 样 两 个 方式 中 的 一 个 操作 : 串 行 的 方 
式 或 者 集中 式 的 方式 。 在 串 行 方式 中 网 络 的 所 有 神经 元 的 突 触 权 值 都 是 在 一 个 模式 接着 一 个 
模式 的 基础 上 调整 的 。 因 此 ， 在 计算 中 使 用 的 误差 曲面 梯度 向 量 的 估算 值 在 本 质 上 是 随机 的 
(任意 的 )， 因 此 “随机 反 向 传播 ”的 名 称 同样 是 用 来 指 反 向 传播 学 习 的 品行 方式 。 在 男 一 方 
面 ， 在 集中 式 方式 中 ， 对 所 有 突 触 权 值 和 偏 置 的 调整 是 在 一 个 回合 接 一 个 回合 的 基础 上 进行 
的 ， 这样 在 计算 中 使 用 梯度 向 量 更 精确 的 人 和 估计。 无论 它 的 缺点 如 何 ， 反 向 传播 学 习 的 串 行 
(随机 ) 形 式 是 神经 网 络 设计 中 使 用 频率 最 高 的 ， 特 别 是 在 大 型 问题 上 。 为 了 得 到 最 好 的 结 
SR, 需要 小 心地 调整 算法 。 

在 多 层 感 知 器 设计 中 的 特定 细节 问题 自然 依赖 于 有 关 具 体 的 应 用 。 然 而 ， 我 们 可 以 做 出 
两 种 区 分 : 

1. 在 涉及 非 线 性 可 分 模式 的 模式 分 类 中 ， 网 络 中 的 所 有 神经 元 都 是 非 线 性 的 。 这 个 非 
线性 是 通过 使 用 sigmoid 函数 来 获得 的 ， 该 函数 的 两 种 通常 用 法 是 (a) 非 对 称 logistic 函数 ， 和 
(b) 反 对 称 双 曲 正切 函数 。 每 个 神经 元 负责 在 决策 空间 中 产生 它 自 己 的 超 平 面 。 通 过 一 个 监 
督 的 学 习 过 程 ， 网 络 中 由 所 有 神经 元 形成 的 超 平面 的 组 合 被 反复 调整 ， 使 之 分 离 来 自 不 同类 
的 以 前 未 曾 见 过 的 模式 时 具有 最 少 的 平均 分 类 误差 。 对 于 模式 分 类 来 说 ， 随 机 反 向 传播 算法 
是 实现 训练 最 广泛 使 用 的 算法 ， 特 别 是 在 大 型 问题 上 (例如 光学 字符 识别 )。 

2. 在 非 线性 回归 中 ， 多 层 感 知 器 的 输出 范围 应 该 大 到 足以 以 包含 过 程 值 ; 如 果 这 个 信 
息 不 能 得 到 ， 那 么 线性 输出 神经 元 的 使 用 是 最 明智 的 选择 。 对 学 习 算 法 ， 我 们 提供 如 下 的 观 
RRK: 

。 反 向 传播 学 习 的 串 行 (随机 ) 方 式 比 集中 方式 慢 得 多 。 

。 反 向 传播 学 习 集 中 方式 比 共 扼 梯度 方法 慢 。 然 而 ， 注 意 后 一 种 方法 只 能 在 集中 方式 

中 使 用 。 

我 们 以 一 些 关 于 性 能 度量 的 最 后 评论 结束 这 一 讨论 。 本 章 中 提出 的 反 向 算法 的 推导 是 基 
于 以 这 种 或 那 种 方法 最 小 化 代价 函数 @,, ， 代 价 隐 数 ,定义 为 误差 平方 和 在 整个 训练 集 上 平 
均 。 这 个 准则 的 一 个 重要 优点 是 它 的 普遍 性 和 数学 上 的 易 处 理性 。 然 而 ， 实 际 中 遇 到 的 许多 
情况 ， 最 小 化 代价 函数 ,相当 于 优化 并 不 是 系统 最 终 目标 的 中 间 量 ， 并 且 可 能 因此 导致 一 
个 次 优 的 性 能 。 例 如 ， 在 资本 市 场 交 易 系统 中 ， 一 个 投资 者 或 交易 者 的 最 终 目标 是 以 最 小 的 
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风险 获得 最 大 的 预期 回报 (Choey and Weigend, 1996; Moody and Wu, 1996 )。 作 为 风险 调整 回报 
的 性 能 评价 标准 的 夏普 率 (Sharpe ratio) 或 回报 易 失 率 (reward-to-volatility ratio) A HW EME, E 
有 吸引 力 。 


注释 和 参考 文献 


[1] 


[2] 


[8] 


sigmoid 函数 被 这 样 命名 是 因为 它们 的 图 形 是 “s" 形 的 。Menon et al. (1996) 对 两 类 sigmoid 
函数 进行 了 深入 的 研究 : , 
。 简单 sigmoid, E XAAR FRAY Al 5c SADA) Ae AF eR 
。 双 曲 sigmoid， 代 表 简单 sigmoid 的 一 个 真子 集 和 双 曲 线 正切 函数 的 自然 推广 。 
对 于 LMS 算法 的 特殊 情形 ， 已 经 证 明 使 用 动量 常数 a 降低 学 习 率 参数 q 的 稳定 范围 ， 
并 且 如 果 | 没有 被 适当 调整 ， 这 样 会 导致 不 稳定 。 此 外 ， 错 误 调整 也 随 a 的 增加 而 增 
长 ; 更 详细 的 论述 请 见 Roy and Shynk(1990)。 
对 于 从 第 一 条 原则 中 导出 包含 动量 常数 的 反 向 传播 算法 ， 见 Hagiwara(1992)。 
如 果 向 量 w 不 比 它 邻 近 的 点 向 量 更 差 的 话 ， 向 量 w 被 称 为 输入 输出 函数 严 的 一 个 局 
部 最 小 值 ; 也 就 是 ， 如 果 存 在 一 个 e 如 下 (Bertsekas ,1995 ) : 

F(W ) < Fw) 对 所 有 满足 lw-w | <e 的 w 
如 果 w 不 比 其 他 所 有 的 向 量 都 差 ， 则 称 它 为 函数 的 一 个 全 局 最 小 值 ， 也 就 是 ， 

F(w") < F(w) 对 所 有 的 wE R 

其 中 n E w 的 维 数 。 
对 有 效 梯度 估计 应 用 反 向 传播 的 首次 文献 记载 应 归功 于 Werbos(1974)。 在 4.10 节 中 给 
出 的 材料 依照 Saarinen et al.(1992) 给 出 的 处 理 方法 ; Werbos(1990) 对 该 题目 给 出 更 一 般 
的 讨论 。 
网 络 设计 得 益 于 Hessian 矩阵 知识 的 其 他 方面 包括 (Bishop,1995) : 
(1) 在 训练 数据 中 进行 很 小 变化 后 ，Hessian 矩阵 组 成 多 层 感 知 器 再 训练 过 程 的 基础 。 
(2) 在 Bayes 学 习 的 背景 下 : 
。 Hessian 矩阵 的 道 可 用 于 为 训练 后 的 神经 网 络 作 出 的 非 线性 预测 提供 误差 条 ， 并 且 
。 Hessian 矩阵 的 特征 值 可 以 用 于 决定 正则 化 参数 的 合适 值 。 
Buntine 和 Weigend(1994) 回 顾 计算 Hessian 矩阵 的 精确 算法 和 近似 算法 ， 并 有 特别 针对 
神经 网 络 的 参考 文献 ， 也 可 参考 Battiti(1992) 的 文章 。 
通用 逼近 定理 可 以 看 作 是 Weierstrass 定理 (Weierstrass,1885) 的 自然 扩展 。 这 个 定理 表明 
任何 一 个 在 实 轴 闭 区 间 上 的 连续 函数 都 可 以 表示 成 该 区 间 上 绝对 一 致 收 化 的 多 项 式 级 
数 的 极限 。 

以 多 层 感 知 器 作为 工具 进行 对 任意 连续 函数 表示 的 研究 很 可 能 是 首先 被 
HechtNielsen( 1987) 提 起 关注 ， 他 引用 了 归功 于 Sprecher( 1965) 的 Kolomogorov 登 加 定理 的 
改进 版 本 。 然 后 Gallant 和 White(1988) 证 明 ， 在 隐藏 层 具 有 单调 “余弦 " 挤 压 和 在 输出 无 
挤 压 的 单 隐藏 层 多 层 感 知 器 是 被 作为 “Fourier 网 络 ” 的 特殊 情形 垦 入 的 ， 它 的 输出 产生 
给 定 函 数 的 Fourier 级 数 逼 近 。 然 而 ， 在 传统 的 多 层 感 知 器 背景 下 ，Cybenko 第 一 次 严 
格 证 明了 一 个 隐藏 层 足 够 一 致 允 近 任何 具有 在 单位 超 立 方 体 中 的 支 集 的 函数 ; 这 项 工 
作 作为 1988 伊利 诺 斯 大 学 的 技术 报告 发 表 ， 一 年 之 后 作为 论文 发 表 ( Cybenko, 1988, 
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1989), Æ 1989 年 ， 另 外 两 篇 关于 多 层 感 知 器 通用 逼近 器 的 论文 独立 发 表 了 ， 一 篇 由 
Funahashi 完成 ， 另 外 一 篇 由 Hornik, Stinchcombe 和 White 完成 。 对 后 来 关于 逼近 问题 的 
贡献 ， 请 见 Light(1992b) 。 

[9] 交叉 确认 的 发 展 历史 在 Stone(1974) 中 有 记载 。 交 叉 确认 的 思想 至 少 在 20 世纪 30 年 代 
就 已 广泛 传播 ， 但 该 项 技术 的 改进 是 在 20 tec 60 年 代 和 70 年 代 完 成 的 。 该 领域 的 两 
篇 重要 论文 是 Stone( 1974) 和 Geisser(1975) ， 他 们 独立 地 并 且 几 乎 同时 提出 这 项 技术 。 
这 项 技术 被 Stone 命名 为 “交叉 确认 方法 ”， 而 Geiser 则 称 之 为 “预测 样本 复 用 方法 ”。 

[10] 关于 训练 早期 停止 方法 的 最 初 参考 文献 包括 Morgan and Bourlard(1990) 和 Weigend et al. 
(1990)。 也 许 对 多 层 感 知 器 训练 早期 停止 方法 最 详尽 的 统计 学 分 析 是 由 Amari et al. 
(1996a) 提 出 的 。 这 项 研究 得 到 具有 108 个 可 调整 参数 和 一 个 非常 巨大 的 数据 集 (50 000 
个 样本 ) 的 8-8-4 分 类 器 的 计算 机 仿真 的 支持 。 

[11] 级 联 相关 学 习 体 系 结构 (Fahlman and Lebiere,1990) 是 网 络 生长 方法 的 一 个 例子 。 该 过 程 
从 一 个 最 小 网 络 开始 ， 这 个 最 小 网 络 具 有 基于 输入 /输出 考虑 而 指定 的 一 些 输入 和 一 个 
或 者 更 多 的 输出 节点 , 但 隐藏 层 没 有 节点 。 例 如 ，LMS 算法 可 以 用 来 训练 网 络 。 隐 藏 
神经 元 被 一 个 接 一 个 地 添加 到 网 络 中 ， 因 此 得 到 一 个 多 层 结构 。 每 个 新 的 神经 元 从 每 
个 输入 节点 接受 一 个 突 触 连 接 ， 并 日 从 每 个 先前 存在 的 隐藏 神经 元 同样 接受 连接 。 当 
增加 一 个 新 的 隐藏 神 经 元 的 时 候 ， 该 神经 元 输入 边 的 突 触 连接 被 冻结 ， 只 有 在 输出 边 
的 突 触 连接 被 反复 地 训练 。 这 个 被 加 进去 的 隐藏 神经 元 就 成 为 网 络 中 永久 的 特征 检测 
器 。 添 加 新 的 隐藏 神经 元 的 过 程 如 上 述 形 式 进 行 直到 得 到 令 人 满意 的 性 能 为 止 。 

然而 在 Lee et al.(1990) 所 论述 的 网 络 生 长 方法 中 ， 在 前 向 通过 (函数 级 自 适 应 ) 和 
反 向 通过 (参数 级 自 适 应 ) 上 增加 了 称 为 结构 级 自 适 应 的 第 三 级 计算 。 在 第 三 级 计算 中 ， 
网 络 的 结构 通过 改变 神经 元 的 数量 和 网 络 中 神经 元 之 间 的 结构 关系 而 进行 调整 。 这 里 
所 使 用 的 准则 是 当 估 计 误 差 (收敛 之 后 ) 比 期 望 的 值 大 ， 则 在 网 络 中 最 需要 的 地 方 增加 
一 个 神经 元 。 新 的 神经 元 的 合适 位 置 取决 于 监督 网 络 的 学 习 行 为 。 特 别 地 ， 如 果 在 一 
个 长 期 的 参数 调整 (训练 ) 之 后 ， 某 神经 元 输入 的 突出 连接 权 值 向 量 连续 显著 地 波动 ， 
可 以 推断 正 被 讨论 的 神经 元 没有 足够 的 表达 能 力学 习 它 所 承担 的 任务 。 结 构 级 自 适应 
同样 包括 防备 神经 元 可 能 出 现 的 灭绝 。 一 个 神经 元 当 它 不 在 是 网 络 的 功能 元 素 或 者 它 
是 网 络 中 多 余 元 素 的 时 候 ， 它 将 灭绝 。 这 种 网 络 增长 的 方法 看 起 来 是 计算 密集 的 。 

[12] Hecht-Nielsen(1995) 描 述 一 种 复制 器 神经 网 络 ， 它 是 具有 三 个 隐藏 层 和 一 个 输出 层 的 多 
层 感知 器 的 形式 : 

。 在 第 二 和 第 四 ( 隐 含 ) 层 中 的 激活 函数 通过 双 曲 正切 函数 定义 : 
ge” (v) = o” (v) = tanh(y) 

其 中 "是 在 这 些 层 中 一 个 神经 元 的 被 包含 的 诱导 局 部 域 。 

在 中 间 ( 隐 含 ) 层 的 每 个 神经 元 的 激活 函数 由 


3 1 N-1 . 
PP) = 二 + 到 Dy tanh( a( -#)) 
给 出 ， 其 中 a 是 一 个 增益 参数 ，" BK PHAN AS AR. BR p” (v) 描 述 一 


个 光滑 的 具有 N 级 的 阶梯 激活 函数 ， 因 而 本 质 把 相关 神经 元 层 的 输出 向 量 转化 为 天 = 
N 级 ,其 中 ”是 中 间 隐 藏 层 的 神经 元 数目 。 
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。 输出 层 中 的 神经 元 是 线性 的 ， 它 们 的 激活 函数 定义 为 

oe (o) =» 
基于 这 种 神经 网 络 结构 ，Hecht-Nielsen 提出 了 一 个 定理 ,证 明 对 随机 输入 数据 向 量 的 最 
佳 数据 压缩 是 可 以 得 到 的 。 

[13] 我 们 最 起 码 需要 是 一 个 解释 局 部 最 小 问题 的 反 向 传播 学 习 的 理论 框架 。 这 是 一 个 难以 
完成 的 任务 。 不 过 ， 在 文献 中 已 有 关于 这 个 问题 的 一 些 进展 的 报告 。Baldi 和 Hornik 
《1989) 考 虑 了 具有 线性 激活 函数 的 分 层 前 馈 神 经 网 络 使 用 反 向 传播 学 习 中 的 学 习 问 题 。 
他 们 论文 中 的 主要 结论 是 误差 曲面 具有 惟一 的 最 小 值 ， 对 应 于 训练 模式 的 协 方差 矩阵 
第 一 主 特征 向 量 所 扩张 的 子 空间 上 的 正 交 投 影 ， 误差 曲面 上 所 有 的 其 他 临界 点 都 是 鞍 
点 。Gori 和 Tesi(1992) 考 虑 了 反 向 传播 更 一 般 的 情形 ， 包 括 使 用 非 线性 神经 元 。 他 们 论 
文中 的 主要 结论 是 对 于 线性 可 分 模型 ， 可 以 通过 使 用 反 向 传播 学 习 的 集中 处 理 方式 来 
确保 收敛 于 一 个 最 优 解 ( 也 就 是 全 局 最 小 值 )， 并 且 网 络 对 新 样本 的 泛 化 能 力 超过 了 
Rosenblatt 模型 。 

[14] 基于 启发 1 到 启发 4 对 反 向 传播 算法 的 修改 被 称 为 delta-bar-delta 学 习 规 则 (Jacobs， 
1988)， 它 来 源 于 与 在 4.3 节 导 出 反 向 传播 算法 的 传统 形式 相似 的 过 程 。delta-bar-delta 
学 习 规 则 的 实现 可 以 通过 采用 与 梯度 复 用 方法 (Hush and Sales, 1988; Haykin and Deng, 
1991) 相 似 的 思想 来 进行 简化 。 

Salomon 和 Van Hemmen(1996) 提 出 一 种 加 速 反 向 传播 学 习 过 程 的 动态 自 适应 过 程 。 
它 的 根本 思想 是 用 前 一 时 间 步 的 学 习 率 ， 轻 微 地 增加 和 减少 它 ， 对 学 习 率 参数 的 这 两 
个 新 的 值 求 代价 函数 的 值 ， 然 后 选择 使 代价 函数 取 值 小 的 一 个 。 

[15] 共 恩 梯度 方法 的 经 典 参考 文献 是 Hestenes and Stiefel( 1952) ZF, FILME Be 
BUT AWE, Jl Luenberger(1984) and Bertsekas( 1995), FALSE MEAT E 
的 指导 性 处 理 方法 ， 见 Shewchuk(1994)。 关 于 在 神经 网 络 领域 中 该 算法 的 易 读 文献 见 
Johansson et al. (1990). 

[16] 共 轿 梯度 算法 的 传统 形式 要 求 使 用 直线 搜索 方法 ， 它 可 能 因为 自身 的 尝试 性 和 误差 性 
而 花费 时 间 。Meller(1993) 描 述 共 恩 梯度 算法 的 一 个 修改 版 本 ， 称 为 比例 共 恩 梯度 算法 ， 
它 避 人 免 使 用 直线 搜索 。 从 本 质 上 来 说 ， 直 线 搜索 由 算法 的 一 维 空间 的 Levenberg- 
Marquardt 形式 代替 。 使 用 这 种 办 法 的 动机 是 避 开 由 非 正 定 Hessian 矩阵 引起 的 困难 
(Fletcher, 1987) 。 

[17] Hubel 和 Wiesel 关于 “简单 "和 “复杂 ”细胞 的 概念 在 神经 网 络 文献 中 第 一 次 被 Fukushima 


(1980,1995) 在 设计 一 个 称 为 神经 认 知 机 的 学 习 机 的 过 程 中 所 利用 。 然 而 ， 这 个 学 习 机 
以 自 组 织 的 形式 运行 ， 而 图 4-27 描述 的 卷 积 网 络 使 用 标定 的 样本 以 监督 的 形式 运行 。 
习题 
XOR 问题 


4.1 为 了 解决 XOR 问题 ， 图 4-28 表示 一 个 包 
括 单个 隐藏 神经 元 的 神经 网 络 ; 这 个 网 络 可 以 看 作 
EE 4.5 节 中 所 考虑 的 替代 模型 。 通 过 构建 (a) 决 策 .« 
区 域 和 (b) 网 络 的 真 值 表 ,证 明 图 4-28 表示 的 网 络 E 428 
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解决 了 XOR 问题 。 

4.2 ”使 用 反 向 传播 算法 为 图 4-8 所 示 的 神经 网 络 计 算 一 组 突 触 权 值 和 偏 置 的 值 以 解决 
XOR 问题 。 假 设 非 线性 使 用 一 个 logistic 函数 。 

反 向 传播 学 习 

4.3 在 权 值 更 新 中 包含 的 动量 项 可 以 认为 是 满足 启发 3 和 4 的 机 制 ， 它 们 为 加 速 反 向 
传播 算法 的 收敛 提供 指导 ， 这 在 4.17 节 中 进行 了 讨论 。 说 明 这 个 陈述 的 正确 性 。 

4.4 动量 项 a 通常 被 指定 为 在 0<a< 1 范围 的 正 值 。 如 果 a 是 赋予 在 - 1 < <0 之 间 的 
一 个 负 值 ， 研 究 在 这 样 的 条 件 下 使 得 式 (4.41) 关 于 时 间 + 的 行为 差异 。 

4.5 考虑 包括 单个 权 值 的 网 络 的 简单 例子 ， 它 的 代价 函数 是 

E(w) = klw - wy)? + ky 
其 中 wo, k Mk, 是 常数 。 用 具有 动量 项 的 反 向 传播 算法 最 小 化 8(w)。 

探索 包含 的 动量 项 常数 a 怎样 影响 学 习 过 程 。 特 别 注意 使 用 a 收敛 所 需 的 步 数 。 

4.6 在 4.7 节 中 我 们 给 出 了 多 层 感知 器 分 类 器 ( 非 线 性 性 使 用 logistic 函数 ) 属 性 的 定性 
分 析 ， 它 的 输出 提供 后 验 分 类 概率 的 估计 。 这 个 性 质 假设 训练 集 足够 大 ， 并 且 用 来 训练 网 络 
的 反 向 传播 算法 不 会 在 一 个 局 部 最 小 上 被 阻塞 。 补 充 这 个 性 质 的 数学 细节 。 

4.7 从 式 (4.70) 所 定义 的 代价 函数 开始 ， 推 导 式 (4.72) 的 最 小 化 解 和 式 (4.73) 定 义 的 代 
价 函 数 的 最 小 值 。 

4.8 式 (4.81) 到 (4.83) 定 义 图 4- 18 中 的 多 层 感知 器 实现 的 逼近 函数 Fw,x) 的 偏 导数 ， 
根据 如 下 的 假设 推导 这 些 公式 : 


(a) 代 价 函 数 : 
Eln) = tta - F(w,x)] 
(b) 神 经 元 j 的 输出 : 
yi 三 of Day: 
其 中 wi; 是 从 神经 元 i 到 神经 元 j 的 突 触 权 值 ，y; 是 神经 元 i 的 输出 ; 
(c) 非 线性 性 : 
1 
gv) = 1 + expl- v) 
交叉 确认 


4.9 在 第 2 章 所 讨论 的 结构 风险 最 小 化 的 研究 中 ， 也 许 会 说 交叉 确认 是 其 中 的 一 种 情 
形 。 描 述 一 个 使 用 交叉 确认 的 神经 网 络 的 例子 ， 支 持 这 个 说 法 。 

4.10 在 多 重 交 叉 确 认 中 并 没有 如 坚持 到 底 方法 中 那样 在 训练 数据 和 测试 (确认 ) 数 据 之 
间 有 明确 的 区 分 。 使 用 多 重 交叉 确认 可 能 产生 有 偏 估计 吗 ? 证 明 你 的 答案 。 
网 络 修剪 技术 

4.11 模型 选择 的 统计 学 准则 ， 如 Rissanen 最 小 描述 长 度 (MDL) 准 则 和 Akaike 的 信息 论 
原则 (AIC) ， 共 用 一 个 常用 的 组 成 形式 : 

(模型 复杂 度 准则 ) = (对 数 似 然 函 数 ) + (模型 复杂 度 惩罚 ) 
讨论 用 于 网 络 修剪 的 权 值 衰减 和 权 值 消除 方法 是 如 何 符合 这 种 形式 的 。 








[到 
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4.12 (a) 推 导 式 (4.105) 给 出 的 显著 性 S: 的 公式 。 
(b) 假 设 多 层 感知 器 的 均 方 误差 对 自身 权 值 的 Hessian 矩阵 可 以 被 对 角 阵 
H = diag[ hi , hy ,***, hw | 

it, HH 多 是 网 络 权 值 的 总 数 。 决 定 网 络 中 权 值 w 的 显著 性 5,。 
反 向 传播 学 习 的 加 速 收 敛 

4.13 delta-bar-delta 学 习 规则 (Jacobs,1988) 代 表 反 向 传播 算法 的 一 个 修改 形式 ， 它 基于 
4.17 节 中 所 述 的 启发 。 在 这 个 规则 中 ， 网 络 中 的 每 个 突 触 权 值 被 指定 一 个 自身 的 学 习 率 参 
数 。 代 价 函 数 E(n) 因 而 以 相应 的 方式 中 被 修改 。 换 句 话说 ， 尽 管 E(n) 在 数学 上 是 相似 于 
式 (4.2) 的 代价 函数 名 (nn) 的 ， 但 是 新 的 代价 函数 E(n) 的 参数 空间 包括 不 同 的 学 习 率 。 

(a) 推 导 偏 导数 9E(n)/9m(n) 的 表达 式 ， 其 中 y (n) 为 相应 于 突 触 权 值 wi (n) 的 学 习 率 


参数 。 
(b) 因 此 ， 说 明基 于 (a) 的 结果 的 学 习 率 参数 调整 是 完全 符合 4.17 节 中 启发 3 和 启发 4 
的 。 


二 阶 最 优化 方法 

4.14 ”在 式 (4.39) 所 述 的 权 值 修改 中 动量 项 的 使 用 可 以 被 认为 是 共 二 梯 度 方法 的 近似 
(Battiti, 1992)。 讨 论 这 种 说 法 的 正确 性 。 

4.15 以 式 (4.133) 中 B(n) 的 公式 开始 ， 推 性 Hesteness-Stiefel 公式 


_ r’(n)(r(n) - r(n - 1)) 
Bn) = rn Dr(n 1) 


其 中 s(n) 是 方向 向 量 ，r(n) 是 共 思 梯 度 方法 中 的 余 项 。 利 用 这 个 结果 ， 推 导 式 (4.134) 中 的 
Polak-Ribiére 公式 和 式 (4.135) 中 的 Fletcher-Reeves 公式 。 





计算 机 实验 
4.16 研究 使 用 sigmoid 非 线 性 函数 的 反 向 传播 学 习 方 法 获得 一 对 一 上 映射， 描述 如 下 : 
Lf) = 过， l<x<100 
2. f(x) = logio x, lex<l0 
3.f(x) = exp( - x), l<x<l0 
4. f(x) =sinx, 0<x<7 


对 每 个 映射 ， 完 成 如 下 工作 :; 

(a) 建 立 两 个 数据 集 ， 一 个 用 于 网 络 训练 ， 另 一 个 用 于 测试 。 

(b) 假 设 具 有 单个 隐藏 层 ， 利 用 训练 数据 集 计 算 网 络 的 突 触 权 值 。 

(c) 通 过 使 用 测试 数据 求 网 络 计 算 精 度 的 值 。 

使 用 单个 隐藏 层 ， 但 隐藏 神经 元 数目 可 变 ， 研 究 网 络 性 能 是 如 何 受 隐 藏 层 大 小 变化 影响 
的 。 

4.17 表 4-9 的 数据 表示 澳大利亚 野兔 眼睛 晶状体 的 重量 为 年 龄 的 函数 。 没 有 简单 的 解 
析 函 数 可 以 精确 插值 这 些 数据 ， 因 为 我 们 并 没有 一 个 单 值 函 数 。 相 反 ， 利 用 一 个 负 指 数 我 们 
有 这 个 数据 集 的 一 个 非 线 性 最 小 平方 模型 ， 表 示 为 

y = 233.846(1 - exp(- 0.006042x)) + € 
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其 中 s 是 误差 项 。 


利用 反 向 传播 算法 ,设计 一 个 多 层 感知 器 ， 它 能 够 为 这 个 数据 集 提供 一 个 非 线性 最 小 平方 豆 


近 。 与 前 述 的 最 小 平方 模型 比较 你 的 结果 。 


表 4-9 澳大利亚 野 免 眼 睛 晶状体 重量 





年 龄 重量 年 龄 重量 年 龄 重量 年 龄 重量 

(天 ) (mg) (天 ) (mg) (天 ) (mg) (天 ) (mg) 
15 21.66 75 94.6 218 174.18 338 203.23 
15 22.75 82 92.5 218 173.03 347 188.38 
15 22.3 85 105 219 173.54 354 189.7 
18 31.25 91 101.7 224 178.86 357 195.31 
28 44.79 91 102.9 225 177.68 375 202.63 
29 40.55 97 110 227 173.73 394 224.82 
37 50.25 98 104.3 232 159.98 513 203.3 
37 46.88 125 134.9 232 161.29 535 209.7 
44 52.03 142 130.68 237 187.07 554 233.9 
50 63.47 142 140.58 246 176.13 591 234.7 
50 61.13 147 155.3 258 183.4 648 244.3 
60 81 147 152.2 276 186.26 660 231 
61 73.09 150 144.5 285 189.66 705 242.4 
64 79.09 159 142.15 300 186.09 723 230.77 
65 79.51 165 139.81 301 186.7 756 242.57 
65 65.31 183 153.22 305 186.8 768 232.12 
72 71.9 192 145.72 312 195.1 860 246.7 
75 86.1 195 161.1 317 216.41 
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5.1 简介 


设计 一 个 监督 神经 网 络 可 以 有 多 种 方法 。 前 面 一 章 中 所 描述 的 反 向 传播 算法 可 以 看 作 是 
递归 技术 的 应 用 ， 这 种 技术 在 统计 学 中 通称 为 随机 逼近 。 在 本 章 中 我 们 将 神经 网 络 的 设计 看 
作 是 一 个 高 维 空间 中 的 曲线 拟 合 ( 盈 近 ) 问 题 ， 从 而 采用 完全 不 同 的 方法 进行 设计 。 按 照 这 种 
观点 ， 学 习 等 价 于 在 多 维 空间 中 寻找 一 个 能 够 最 佳 拟 合 训练 数据 的 曲面 ， 这 里 的 “最 佳 拟 合 ” 
准则 是 在 某 种 统计 意义 上 的 最 佳 拟 合 。 因 此 ， 泛 化 等 价 于 利用 这 个 多 维 曲面 对 测试 数据 进行 
插值 。 上 述 观 点 是 径 向 基 函 数 方 法 的 出 发 点 ， 径 向 基 男 数 方法 在 某 种 程度 上 利用 了 多 维 空间 
中 传统 的 严格 插值 法 的 研究 成 果 。 在 神经 网 络 的 背景 下 ， 隐 藏 单元 提供 一 个 “函数 " 集 ， 该 函 
数 集 在 输入 模式 (向 量 ) 扩 展 至 隐藏 空间 时 为 其 构建 了 一 个 任意 的 * 基 ”; 这 个 函数 集中 的 函数 
就 被 称 为 径 向 基 函 数 册 。 径 向 基 函 数 首先 是 在 实 多 变量 插值 问题 的 解 中 引入 的 。 这 方面 的 早 
期 工作 在 Powell(1985) 中 综述 ， 而 较 新 的 工作 则 在 Light(1992b) 中 综述 。 径 向 基 函 数 是 目前 数 
值 分 析 研 究 中 的 一 个 主要 领域 。 

最 基本 形式 的 径 向 基 吨 数 ( RBF ) 网 络 的 构成 包括 三 层 ， 其 中 每 一 层 都 有 着 完全 不 同 的 作 
用 。 输 入 层 由 一 些 源 点 (感知 单元 ) 组 成 ， 它 们 将 网 络 与 外 界 环境 连结 起 来 。 第 二 层 是 网 络 中 
仅 有 的 一 个 隐 层 ， 它 的 作用 是 从 输入 空间 到 隐藏 空间 之 间 进 行 非 线性 变换 ; 在 大 多 数 情 况 下 
隐藏 空间 有 较 高 的 维 数 。 输 出 层 是 线性 的 ， 它 为 作用 于 输入 层 的 激活 模式 (信和 号) 提供 响应 。 
关于 非 线性 变换 之 后 跟随 线性 变换 的 理论 基础 其 数学 依据 可 以 追溯 到 Cover(1965) 的 一 篇 早 
期 论文 。 根 据 这 篇 文章 ， 一 个 模式 分 类 问题 如 果 映 射 到 一 个 高 维 空间 将 会 比 映 射 到 一 个 低 维 
空间 更 可 能 是 线性 可 分 的 ， 这 就 是 径 向 基 函 数 网 络 的 隐藏 空间 的 维 数 通 常 都 较 高 的 原因 。 还 
有 另外 一 个 重要 的 原因 ， 就 是 隐藏 空 间 的 维 数 与 网 络 能 否 近 近 一 个 光滑 的 输入 - 输出 映射 有 
着 直接 的 联系 (Mhaskar,1996; Niyogi and Girosi,1996); 隐藏 空间 的 维 数 越 高 ， 逼 近 就 越 精 确 。 


本 章 的 组 织 


本 章 的 主要 部 分 组 织 如 下 。 我 们 将 有 关 构 建 RBF 网 络 的 基础 放 在 5.2 节 和 5.4 节 。 分 两 
个 步 又 来 做 到 这 一 点 。 第 一 步 ， 描 述 Cover 关于 模式 可 分 的 定理 ; 将 利用 XOR 问题 来 阐释 该 
定理 的 应 用 。 在 5.3 节 将 考虑 插值 问题 及 其 他 与 RBF 网 络 的 关系 。 

在 得 到 RBF 网 络 如 何 工作 的 一 个 了 解 之 后 ， 我 们 将 进入 本 章 的 第 二 部 分 ， 这 部 分 包括 
5.4 节 至 5.9 节 。 在 5.4 节 中 讨论 监督 学 习 是 一 种 不 适 定 的 超 曲 面 重建 问题 的 观点 。 在 5.5 
节 将 详细 论述 Tikhonov 的 正则 化 理论 及 其 在 RBF 网 络 中 的 应 用 。 这 个 理论 将 很 自然 地 导出 在 
5.6 节 中 正则 化 网 络 的 公式 。 这 类 RBF 网 络 对 计算 的 要 求 很 高 。 为 了 减少 计算 复杂 性 ， 在 
5.7 节 将 讨论 一 个 被 称 为 广义 RBF 网 络 的 改进 正则 化 网 络 。 在 5.8 节 我 们 将 重新 讨论 XOR 问 
题 ， 并 且 展 示 RBF 网 络 是 如 何 解决 这 个 问题 的 。 在 $.9 节 将 描述 一 种 用 于 选择 正则 化 参数 恰 
当 值 的 广义 交叉 确认 方法 ， 从 而 完成 正则 化 理论 的 研究 。 
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5.10 节 讨论 RBF 网 络 的 逼近 性 质 。5.11 节 将 RBF 28 5 LARARE, A 
种 网 络 都 是 分 层 前 馈 网 络 的 重要 例子 。 

在 5.12 节 讨 论 核 回归 估计 ,， 它 是 关于 RBF 网 络 的 另 一 种 观点 的 基础 。 我 们 将 大 量 处 理 
密度 估计 和 核 回 归 理论 的 统计 学 文献 和 RBF 网 络 联系 起 来 。 

5.13 节 和 5.14 节 是 本 章 的 最 后 一 部 分 。 在 5.13 节 提 出 设计 RBF 网 络 的 四 个 不 同 的 学 习 
策略 。 在 5.14 节 描 述 一 个 用 RBF 网 络 进行 模式 分 类 的 计算 机 试验 。 

在 5.15 节 以 某 些 关于 RBF 网 络 的 最 后 的 思想 作为 本 章 的 结束 。 


5.2 模式 可 分 性 的 Cover 定理 


当 用 径 向 基 函 数 神经 网 络 来 解决 一 个 复杂 的 模式 分 类 任务 时 ， 问 题 的 基本 解决 可 以 通过 
用 非 线 性 方式 将 其 变换 到 一 个 高 维 空间 。 它 的 潜在 合理 性 来 自 模式 可 分 性 的 Cover 定理 ， 该 
定理 可 以 定性 地 表述 如 下 (Cover, 1965) : 

将 复杂 的 模式 分 类 问题 非 线性 地 投射 到 高 维 空间 将 比 投射 到 低 维 空间 更 可 能 是 线性 可 分 
的 。 

从 第 3 章 对 单 层 感知 器 的 研究 中 知道 ， 一 旦 模式 具有 线性 可 分 性 ， 则 相应 的 分 类 问题 相对 而 
言 就 更 容易 解决 。 因 此 ， 我 们 通过 研究 模式 的 可 分 性 可 以 深入 了 解 RBF 网 络 作为 模式 分 类 
器 是 如 何 工作 的 。 

考虑 一 族 曲 面 ， 每 一 个 曲面 都 自然 地 将 输入 空间 自然 地 分 成 两 个 区 域 。 用 % 代 表 N 个 模 
AHE), x, o XI 的 集合 ， 其 中 每 一 个 模式 都 分 属于 两 个 类 %， 和 2%, 中 的 一 类 。 如 果 
在 这 一 族 曲面 中 存在 一 个 曲面 能 够 将 分 别 属于 %， 和 8%, 的 这 些 点 分 成 两 部 分 ， 我 们 就 称 这 些 
点 的 二 分 (二 元 划分 ) 关 于 这 族 曲面 是 可 分 的 。 对 于 每 一 个 模式 xE&% ， 定 义 一 个 由 一 组 实 值 
函数 ig;(x)1i=1，2,，…，、mi| 组 成 的 向 量 ， 表 示 如 下 : 

P(X) = [p (x), p(X), Pa (x) 1" (5.1) 
假设 模式 x 是 m 维 输入 空间 的 一 个 向 量 ， 则 向 量 p(x) 将 mo 维 输入 空间 的 点 映射 到 新 的 m 
维 空间 的 相应 的 点 上 。 我 们 将 o;(x) 称 为 隐藏 函数 ， 因 为 它 与 前 馈 神经 网 络 中 的 隐藏 单元 起 
着 同样 的 作用 。 相 应 地 ， 由 隐藏 函数 集合 1p; (x)1 呈 ;所 生成 的 空间 被 称 为 降 藏 空间 或 者 特征 
空间 。 

我 们 称 一 个 关于 久 的 二 分 {多 ,%, | 是 9 可 分 的 ， 如 果 存 在 一 个 m 维 的 向 量 w 使 得 
(Cover, 1965 ) 

w'@(x) > 0, x€ &, 


w'@(x) < 0, x € 2， (5.2) 
由 方程 
w'o(x) = 0 
定义 的 超 平面 描述 p 空间 (也 就 是 隐藏 空间 ) 中 的 分 离 曲面 。 这 个 超 平面 的 逆 像 ， 即 
x:w @(x) = 0 (5.3) 
定义 输入 空间 中 的 分 离 曲面 。 


考虑 一 个 利用 r 次 模式 向 量 坐标 乘积 的 线性 组 合 实现 的 一 个 自然 类 映射 。 与 此 种 映射 相 
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对 应 的 分 离 曲面 被 称 为 > NAER. omy 维 空间 的 > A BEY FEY A TEx 的 坐 
标的 一 个 + 次 齐 次 方程 ， 表 示 为 


a 


Osi sia <i am 


其 中 x, 是 输入 向 量 x 的 第 i 个 元 素 。 为 了 用 齐 次 形式 来 表达 方程 ， 将 x。 的 值 置 为 单位 值 1。 
x 中 项 x 的 7 阶乘 积 就 是 x x,…x; ， 被 称 为 单项 式 。 对 于 一 个 m 维 的 输入 空间 在 式 (5.4) 


中 一 共有 


“x =0 (5.4) 


High 


(mo - r)! 
m!r! 


个 单项 式 。 式 (5.4) 所 描述 的 分 离 曲面 的 类 型 的 例子 有 超 平面 (一 阶 有 理 簇 ) 、 二 次 曲面 (二 阶 
有 理 复 ) 和 超 球面 ( 带 有 某 种 线性 限制 系数 的 二 次 曲面 ) 等 。 这 些 例子 的 说 明 见 图 5-1， 该 图 
说 明 在 二 维 输入 空间 中 的 五 点 的 构 形 。 通 常情 况 下 ， 线 性 可 分 性 暗示 着 球面 可 分 性 ， 而 球面 
可 分 性 又 暗示 着 二 次 可 分 性 ; 然而 反之 不 一 定 成 立 。 








a) b) c) 


图 5-1 二 维 平面 上 的 5 个 点 的 不 同 集合 的 p- 可 分 的 二 分 的 3 个 例子 : 
a) 线 性 可 分 的 二 分 b) 球 形 可 分 的 二 分 c) 二 次 可 分 的 二 分 
在 一 个 概率 实验 中 ， 一 个 模式 集合 的 可 分 性 成 为 一 个 依赖 于 选择 的 二 分 以 及 输入 空间 中 
模式 的 分 布 的 随机 事件 。 假 设 激活 模式 x, ，x。，…，xw 是 根据 输入 空间 中 的 概率 特性 而 独 
立 选取 的 。 同 时 假设 所 有 的 关于 % = {x 的 二 分 都 是 等 可 能 的 。 令 P(N, mi ) 表 示 某 一 随 
机 选取 的 二 分 是 p 可 分 的 概率 ， 这 里 被 选中 的 分 离 曲面 的 类 具有 m 维 的 自由 度 。 根 据 Cover 
(1965) ， 我 们 可 以 将 PCN, m ) 表 述 为 





P(N,m,) = (4) S2) (5.5) 


这 里 ,包括 N-1 Alm 的 二 项 式 系数 定义 如 下 : 
(‘)- ICL - 1)--(1 - m +1) 


m! 





式 (5.5) 体现 Cover 的 可 分 性 定理 对 于 随机 模式 ” 的 本 质 。 它 说 明 累 计 二 项 概率 分 布 ， 相 当 
于 抛 (N - 1) 次 硬币 有 (mi ~ 1) 次 或 更 少 次 头像 向 上 的 概率 。 

尽管 在 式 (5.5) 的 推导 中 遇见 的 隐藏 单元 曲面 是 一 个 多 项 式 的 形式 ， 从 而 与 我 们 通常 在 
径 向 基 函 数 网 络 中 用 到 的 有 所 不 同 ， 但 是 该 式 的 核心 内 容 却 具 有 普遍 的 适用 性 。 特 别 地 ， 若 
隐藏 空间 的 维 数 m, 越 高 ， 则 概率 P(N, m ) 就 越 趋向 于 1。 总 之 ， 关 于 模式 可 分 性 的 Cover 
定理 主要 包含 下 面 两 个 基本 部 分 : 

1. 由 9 (xz) 定 义 的 隐藏 函数 的 非 线性 构成 ， 这 里 x 是 输入 向 量 , Hisl, 2,…，mio 

2. 高 维 数 的 隐藏 空间 ， 这 里 的 高 维 数 是 相对 于 输入 空间 而 言 的 。 维 数 由 赋 给 m 的 值 
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( 即 隐藏 单元 的 个 数 ) 决定 。 

如 前 所 述 ， 通 常 将 一 个 复杂 的 模式 分 类 问题 非 线性 地 投射 到 高 维 数 空间 将 会 比 投射 到 低 
维 数 空间 更 可 能 是 线性 可 分 的 。 但 是 需要 强调 的 是 ， 有 时 使 用 非 线 性 映射 ( 即 第 1 部 分 ) 就 足 
够 导致 线性 可 分 ， 而 且 不 必 升 高 隐藏 单元 空间 维 数 ， 如 下 面 例子 所 说 明 的 那样 。 

例 5.1 XOR 问题 为 了 说 明 模式 的 p 可 分 性 思想 的 意义 ， 考 虑 一 个 简单 却 又 十 分 重要 
的 XOR 问题 。 在 XOR 问题 中 有 四 个 二 维 输入 空间 上 的 点 (模式 ): (1,1)，(0,1)，(0,0) 和 
(1,0)， 如 图 $-2a。 要 求 建立 一 个 模式 分 类 器 产生 二 值 输出 响应 ， 其 中 点 (1,1) 或 (0,0) 对 应 
于 输出 0， 点 (1,0) 或 (0,1) 对 应 于 输出 1。 因 此 在 输入 空间 中 依 Hamming 距离 最 近 的 点 映射 
到 在 输出 空间 中 最 大 分 离 的 区 域 。 l 

定义 一 对 Gauss 隐藏 函数 如 下 : 

@ (x) = eh t = [1,1]? 


Q(x) = ehh t = [0,0]” 
这 样 我 们 可 以 得 到 以 上 四 个 点 作为 输入 时 的 结果 ， 如 表 5-1 所 示 。 如 图 5-2b， 输 入 模式 被 映 
射 到 p - gp, 平面 上 。 这 里 我 们 可 以 看 到 输入 (0,1)，(1,0) 与 剩 下 的 两 个 输入 (1,1)，(0,0) 是 
线性 可 分 的 。 然 后 ， 我 们 将 p (x) 和 p (x) 作为 一 个 线性 分 类 器 如 感知 器 模型 的 输入 ， 则 
XOR 问题 就 迎刃而解 了 。 a 


P 


(0,1) (1,1) 
e e 





(0,0) (1,0) 
e e 
a) b) 


图 5-2 
a)XOR 问题 的 4 个 模式 b) 决 策 图 


R51 用 于 例 5.1 的 XOR 问题 的 隐藏 函数 设置 





输入 模式 x 第 一 隐藏 函数 om (x) 第 二 隐藏 函数 mm (x) 
(1,1) 1 0.1353 
(0,1) 0.3678 0.3678 
(0,0) 0.1353 1 


(1,0) 0.3678 0.3678 
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在 这 个 例子 中 隐藏 空间 的 维 数 相 对 于 输入 空间 并 没有 增加 。 也 就 是 说 ， 以 Gauss 函数 作 
为 非 线性 的 隐藏 函数 ， 足 以 将 XOR 问题 转化 为 一 个 线性 可 分 问题 。 


曲面 的 分 离 能 力 


式 (5.5) 对 于 在 多 维 空间 中 随机 指定 输入 模式 线性 可 分 的 期 望 最 大 数目 有 重要 意义 。 为 
了 研究 这 个 问题 ， 如 前 所 述 将 x, ，x, ，…，xw 视 为 一 个 随机 模式 (向 量 ) 序 列 。 今 N 为 一 个 
随机 变量 ,定义 为 该 序列 为 p 可 分 时 的 最 大 整数 ， 这 里 pg 具有 m 的 自由 度 。 于 是 由 式 
(5.5) 我 们 可 以 导出 当 N= n 时 的 概率 
Prob(N = n) = P(n,m,) - P(n+1,m,) = GE B 
为 了 解释 上 述 结果 ， 我 们 回想 一 下 负 二 项 分 布 的 定义 。 该 分 布 相当 于 在 一 组 重复 的 
Bernoulli 实验 中 有 r 次 成 功 、k 次 失败 且 最 后 一 次 是 成 功 的 概率 。 在 这 种 概率 实验 中 ， 每 一 
次 实验 只 有 两 种 结果 ， 不 是 成 功 就 是 失败 ， 并 且 成 功 和 失败 的 概率 在 整 组 实验 中 都 是 相同 
的 。 令 代表 成 功 的 概率 ，9 代表 失败 的 概率 ，p + g = 1。 负 二 项 分 布 定 义 (Feller,1968 ) 如 
F: 


n-1 


| sn = 0,1,2,.… (5.6) 


Ar = p(t?) 


在 P=9=L12( 即 成 功 和 失败 具有 相等 的 概率 ) 且 丰 +r=z 的 特殊 情况 下 ， 上 述 的 负 二 项 分 布 


将 变 为 
Akin 一 k, 4) = (#) ("7 ).n = 0,1,2, 


根据 上 述 定 义 ， 我 们 现在 可 以 看 出 由 式 ($.6) 所 表示 的 结果 正 是 负 二 项 分 布 ， 只 不 过 右 移 了 
m 个 单位 且 具 有 参数 m 和 1/2。 这 样 ，N 相当 于 在 一 组 抛 硬币 的 实验 中 出 现 第 m 次 失败 
的 “等 待 时 间 ”。 随 机 变量 N 的 期 望 和 中 位 数 分 别 为 
E[N] = 2m, (5.7) 

All Median[ N] = 2m, (5.8) 

因此 ， 我 们 可 以 得 到 Cover 定理 的 一 个 推论 ， 用 著名 的 渐 近 结果 的 形式 可 表述 如 下 : 

一 组 随机 指定 的 输入 模式 (向 量 ) 的 集合 在 m 维 空间 中 线性 可 分 ， 它 的 元 素数 目的 最 大 
期 望 等 于 2mi。 


该 结果 表明 ，2m; 是 对 一 族 具 有 m 维 自由 度 的 决策 曲面 的 分 离 能 力 的 自然 定义 。 在 一 
定 程 度 上 ， 一 个 曲面 的 分 离 能 力 与 第 2 章 讨论 的 VC 维 数 的 概念 有 着 紧密 的 联系 。 


5.3 插值 问题 


从 关于 模式 可 分 性 的 Cover 定理 得 到 的 重要 思想 是 在 解决 一 个 非 线 性 可 分 的 模式 分 类 问 
籁 时 ， 如 果 将 输入 空间 映射 到 一 个 新 的 维 数 足够 高 的 空间 去 ， 将 会 有 助 于 问题 的 解决 。 基 本 
说 来 用 一 个 非 线性 变换 将 一 个 非 线性 可 分 的 分 类 问题 转变 为 一 个 线性 可 分 问题 。 同 样 地 ， 我 
们 可 以 用 非 线性 变换 将 一 个 复杂 的 非 线 性 滤波 问题 转化 为 一 个 较 简 单 的 线性 滤波 问题 。 
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现在 考虑 一 个 由 输入 层 、 一 个 中 间 层 和 只 有 一 个 输出 单元 的 输出 层 组 成 的 前 馈 网 络 。 我 
们 选择 只 有 一 个 输 AAAA HAEREA A MIENE 般 性 。 设 计 这 个 网 络 
实现 从 输入 空间 到 隐藏 空间 的 一 个 非 线 性 映射 ， 随 后 从 隐藏 空间 到 输出 空间 则 是 线性 映射 。 
S mo 为 输入 空间 的 维 数 。 这 样 从 总 体 上 看 这 个 网 络 就 相当 于 一 个 从 mo 维 输入 空间 到 一 维 
输出 空间 的 映射 ， 可 以 写成 如 下 形式 ， 
s:R" > R (5.9) 
我 们 可 以 将 映射 s 视 为 一 个 超 曲 面 (图 )TC 民 %*!， 就 好 像 我们 可 以 将 一 个 最 基本 的 映 
Rs: 民 一 RR ， 其 中 s(x) = x *， 视 为 R 空 间 中 的 一 条 抛物 线 一 样 。 超 曲面 醋 作 为 输入 的 函 
数 是 输出 空间 的 多 维 曲 面 。 在 实际 情况 下 ， 曲 面 是 未知 的 ， 并 且 训 练 数据 中 通常 带 有 了 躁 
声 。 学 习 中 的 训练 阶段 和 泛 化 阶段 可 叙述 如 下 : 
。 训练 阶段 由 曲面 的 拟 合 过 程 的 最 优化 构成 ， 它 根据 以 输入 - 输出 样本 (模式 ) 形 式 
呈现 给 网 络 的 已 知 数据 进行 。 
。 泛 化 阶段 的 任务 就 是 在 数据 点 之 间 进 行 插值 ， 插 值 是 在 真实 曲面 工 的 最 佳 副 近 的 拟 
合 过 程 产生 的 约束 曲面 二 进行 的 。 
这 样 我 们 将 引出 具有 悠久 历史 的 高 维 空间 多 变量 插值 理论 (Davis,1963 )。 从 严格 意义 上 说 ， 
播 值 问 题 可 以 叙述 如 下 : 


给 定 一 个 包含 NAAM AMES (x, CB li =1,2,-+,N | 和 相应 的 N 个 实数 的 一 个 集 
@idERli=l,2,-°,N}, #R-+ BK F: BHR 满足 下 述 插值 条 件 : 
F(x,) = d:, i= 1,2,-°,N (5.10) 


对 于 这 里 所 述 的 严格 插值 来 说 ， 插 值 曲面 ( 即 函 数 FF) 必须 通过 所 有 的 训练 数据 点 。 
信和 可 本 数 (RBF) 技 术 就 是 要 选择 一 个 函数 具有 下 列 形 式 (Powell,1988 ): 


FO) = Dol x- xl) (5.11) 


其 中 p(x- 有)1i=1,2,…,N| 是 个 任意 (一 般 地 是 线性 ) 函数 的 集合 ， 称 为 径 身 基 吨 
数 ; | ' | 表示 范 数 ， 通 常 是 欧 几 里 德 范 数 。 已 知 数据 和 ER ，i =1，2,，…, WN 是 径 向 基 
函数 的 中 心 。 

将 (5.10) 的 插值 条 件 代 入 式 (5.11) 中 ， 我 们 可 以 得 到 一 组 关于 未 知 系数 ( 权 值 ) 的 展开 
iwi|} 的 线性 方程 组 : 


Pu Po | Pw || wi d, 
eee’ d 
nein | aa ai (5.12) 
Pa Ọm ° Pant Wy dy 
其 中 g= lxx I), G, i)=1, 2, =, N (5.13) 
= d={d,, dy, °", dy ]", w=lw,, Wrs `, wy |" 


上 式 中 的 Nx 1 向 量 d 和 w 分别 表示 期 望 输出 向 量 和 连结 权 值 向 量 ， 其 中 N 表示 训练 样本 
的 长 度 。 令 ORRIRA 9; 的 Nx N 阶 的 矩阵 ; 
= {pi | G,i) = 1,2,°°,N} (5.14) 
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我 们 称 该 矩阵 为 插值 矩阵 。 于 是 式 (5.12) 可 以 写成 紧凑 形式 
Dw = x (5.15) 


假设 o 为 非 奇 异 矩 阵 ， 因 此 而 存在 理 : 。 这 样 我 们 就 可 以 从 式 (5.15) 中 解 出 权 值 向 量 w， 表 
IRA 

w= Dx (5.16) 
问题 的 关键 是 : 我 们 怎么 能 保证 插值 矩阵 ®@ EIERE? 可 以 证 明 ， 对 于 大 量 径 向 基 函 数 
来 说 在 某 种 条 件 下 上 述 问题 的 答案 可 以 由 下 面 的 重要 定理 给 出 。 


Micchelli 定理 

Micchelli(1986) 证 明了 如 下 和 定理， 

PRix) E RP NAERA EGRA, DN x N Sensei OF ji KE 
是 oj = ( || x; - x; || AHH. 


AKEH a Sk BB AT Michelli 定理 ， 包 括 下 面 三 个 在 径 向 基 函 数 网 络 中 有 重要 地 位 的 函 
数 ; 
1. 多 二 次 (Multiquadrics) HAR: 


or) = (r+e) ¢>0,rER (5.17) 
2. BA — WK (Inverse multiquadrics) 函数 : 

g(r) = pe c>0,rER (5.18) 
3. Gauss 函数 : 

g(r) = exp( - 55) 6>0,rER (5.19) 


BIR BMS — ee AB F Hardy(1971). 

Wy T (SK (5.17) B (5.19) BRAK AY EE [ey BE BE SE A SY, UAE AP AAR Lx, | E 
不 相同 。 这 就 是 使 插值 矩阵 昌 非 奇异 的 全 部 要 求 ， 与 所 给 样本 的 长 度 N 和 向 量 (点 )x, 的 维 
数 mo AR. 

式 (5.18) 的 逆 多 二 次 函数 和 式 (5.19) 的 Gauss 函数 具有 一 个 共同 的 性 质 : 它们 都 是 局 部 
EERS, Aree 时 ，9(r) 一 0。 以 上 面 两 个 函数 作为 径 向 基 函 数 所 组 成 的 插值 矩阵 D 
都 是 正定 的 。 与 此 相反 ， 而 由 式 (5.17) 所 定义 的 多 二 次 函数 是 非 局 部 性 函数 ， 因 为 当 ra 
时 ，9(r) 是 无 界 的 ; 与 其 相对 应 的 插值 矩阵 有 (N -1) 个 负 的 特征 值 ， 只 有 一 个 正 的 特征 
值 ， 所 以 不 是 正定 的 (Micchelli 1986)。 但 值得 注意 的 是 在 Hardy 的 多 二 次 函数 基础 上 建立 的 
插值 矩阵 © HEAR, Auta Ate RBF 网 络 设计 中 应 用 。 

一 个 更 加 值得 注意 的 是 径 向 基 范 数 若是 无 限 增长 的 ， 例 如 多 二 次 函数 ， 与 其 他 产生 正定 
插值 矩阵 的 孙 数 相 比 ， 它 能 以 更 高 的 精度 表 近 一 个 光滑 的 输入 - 输出 映射 。Powell(1988) 讨 
论 这 个 令 人 惊奇 的 结果 。 


5.4 ”作为 不 适 定 超 曲 面 重建 问题 的 监督 学 习 
在 某 些 任务 中 由 于 对 新 数据 具有 较 差 的 泛 化 性 能 ， 这 样 利 用 上 述 严格 的 插值 方法 来 训练 
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一 个 RBF 网 络 并 不 是 一 个 好 办 法 。 这 是 因为 如 果 训 练 样本 中 的 数据 点 的 数目 远 远大 于 固有 
的 物理 过 程 的 自由 度 ， 并 且 我 们 限制 径 向 基 吗 数 的 个 数 与 数据 点 的 个 数 是 相同 的 ， 这 样 问题 
就 为 超 定 的 。 结 果 神 经 网 络 就 会 因为 输入 数据 的 特性 (idiosyncrasy) 或 者 噪声 干扰 而 拟 合 到 一 
个 错误 的 曲面 ， 从 而 导致 泛 化 性 能 降低 (Broomhead and Lowe, 1988 )。 

为 了 进一步 加 深 对 过 拟 合 问题 的 理解 并 且 如 何 克 服 这 个 问题 ， 我 们 可 以 先 回 到 这 样 观 
点 : 训练 神经 网 络 使 其 能 够 根据 输入 模式 找到 相应 的 输出 模式 ， 它 的 设计 相当 于 学 习 一 个 超 
曲面 ( 即 多 维 映射 ) 使 其 能 够 根据 输入 确定 输出 。 换 名 话说， 学 习 可 以 被 视 为 给 定 一 组 可 能 是 
稀 朴 的 数据 点 的 超 曲 面 重建 问题 。 

根据 Keller(1976) 和 Kirsch(1996) ， 如 果 有 相关 两 个 问题 ， 系 统 地 解决 其 中 的 任意 一 个 问 
题 都 必须 部 分 地 或 者 全 部 地 知道 关于 另 一 个 问题 的 知识 ， 那 么 我 们 就 称 这 两 个 问题 是 互 逆 
的 。 通 常 我 们 发 现 其 中 一 个 问题 比 另 一 个 问题 研究 得 早 ， 并 且 可 能 研究 得 更 透彻 ， 那 么 这 个 
问题 就 被 称 为 正 问题 (direct problem) ， 而 另 一 个 问题 就 被 称 为 道 问题 (inverse problem)。 然 而 
从 数学 角度 来 说 ， 正 问题 和 道 问题 之 间 有 着 更 重要 的 区 别 。 特 别 地 ， 所 研究 问题 是 适 定 的 
(well-posed) 还 是 不 适 定 的 ( 误 -posed)。“ 适 定 ” 这 个 术语 在 20 世纪 初 从 Hadamard 的 那个 时 期 起 
就 已 经 在 应 用 数学 中 使 用 。 为 了 解释 这 个 术语 ， 假 设 我 们 在 度量 空间 有 一 个 定义 域 X 和 一 
个 值 域 Y， 它 们 由 一 个 固定 的 但 是 未 知 的 映射 /联系 着 。 如 果 下 面 三 个 条 件 均 满足 的 话 ， 我 
们 就 称 映射 f 的 重建 问题 是 适 定 的 (Tikhonov and Arsenin,1977; Morozov,1993; Kirsch, 1996) : 

1. 存在 性 。 对 每 一 个 输入 向 量 xE8Y ， 都 存在 一 个 输出 y = f(x)， 其 中 yes, 

2. 惟一 性 。 对 任何 一 对 输入 向 量 x，tE8 中 ， 当 且 仅 当 x=t 时 有 f(x) = f(t)。 

3. 连续 性 。 映 射 是 连续 的 ， 即 对 任何 > 0， 存 在 8= 8(e) 使 得 当 o.(x,b <5 时 , p, (fF 
(xX) ,f(t)) <e RZ. RPF oC, ) 表 示 两 个 变量 在 其 所 属 空 间 中 的 距离 。 这 一 准则 如 图 5-3 
所 示 。 连 续 性 通常 也 被 称 为 稳定 性 。 


如 果 上 述 的 任何 一 项 条 件 不 满足 ， 那 么 问题 就 称 为 mat 

不 适 定 的 。 从 根本 上 说 ， 一 个 问题 如 果 是 不 适 定 < > 

的 ， 说 明 大 量 的 数据 集合 里 只 包含 着 很 少 一 部 分 的 

有 用 信息 。 定义 域 X BRY 
在 我 们 现时 的 背景 下 ， 负 责 产生 训练 数据 ( 例 

如 语音 、 图 象 、 雷 达 信号 、 声 纳 信号 和 地 震 数据 图 5-3 EURAX HBA) BLES 

等 ) 的 物理 现象 是 适 定 的 正 问题 。 然 而 ， 从 这 些 数 的 映射 示例 


据 的 物理 形式 学 习 ， 看 作 超 曲面 的 重建 问题 ， 基 于 后 面 的 原因 却 是 一 个 不 适 定 的 逆 问 题 。 原 
因 如 下 : 第 一 ， 存 在 性 准则 可 能 不 满足 ， 因 为 对 于 每 一 个 输入 来 说 ， 其 不 同 的 输出 并 不 一 定 
存在 。 第 二 ， 训 练 样本 中 可 能 没有 完整 重建 输 人 - 输出 映射 所 需 的 足够 信息 ， 因 而 惟一 性 准 
则 可 能 不 满足 。 第 三 ， 现 实生 活 中 训练 数据 不 可 避免 出 现 噪声 以 及 不 精确 性 ， 增 加 了 输入 - 
输出 映射 重建 的 不 确定 性 。 特 别 地 ， 若 输入 中 所 含 的 噪声 水 平 太 高 ， 对 于 定义 域 % 的 特定 输 
人 和 人 x， 由 神经 网 络 所 产生 的 输出 结果 可 能 超出 值 域 的 范围 ; 换 名 话说， 连续 性 准则 可 能 不 
满足 。 如 果 一 个 学 习 问 题 不 具有 连续 性 ， 那 么 计算 所 得 的 输入 -输出 映射 将 和 学 习 问 题 的 真 
解 毫 无 关系 。 除 非 预 先知 道 一 些 关 于 输入 - 输出 映射 的 先 验 信息 ， 和 否则 这 个 问题 是 不 可 克服 
的 。 在 这 个 背景 下 ， 我 们 引用 Lanczos 关于 线性 微分 算 子 所 作 陈 述 是 恰当 的 :“ 信 息 的 缺乏 并 
不 能 靠 任何 数学 技巧 来 弥补 。 
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我 们 将 在 下 一 节 讨论 如 何 通过 正则 化 方法 将 一 个 不 适 定 问题 转变 成 一 个 适 定 问题 ” 。 
5.5 正则 化 理论 


1963 年 Tikhonov 提出 了 一 种 新 的 方法 用 以 解决 不 适 定 问题 ”， 该 方法 就 是 正则 化 方法 。 
在 曲面 重建 的 问题 上 ， 正 则 化 的 基本 思想 就 是 通过 某 些 含有 解 的 先 验 知识 的 非 负 的 辅助 泛 函 
来 使 解 稳定 。 先 验 知 识 的 一 般 形 式 涉 及 假设 输入 - 输出 映射 函数 ( 即 重建 问题 的 解 ) 是 光滑 
的 ， 意 味 着 相似 的 输入 对 应 着 相似 的 输出 。 
进一步 ， 我 们 将 用 于 逼近 的 输入 -输出 数据 ( 即 训 练 样 本 ) 集 合 描 述 如 下 : 
输入 信号 :x, E B%, i = 1,2,…,N 
期 望 响 应 :d, € BW, i = 1,2,…,N 
注意 这 里 假定 输出 是 一 维 的。 这 种 假设 并 不 会 限制 这 里 讨论 的 正则 化 理论 的 一 般 性 应 用 。 用 
(x) 表示 逼近 函数 ， 这 里 为 了 方便 表达 ， 我 们 在 变量 中 省 掉 了 神经 网 络 的 权 值 向 量 w。 从 
根本 上 说 ，Tikhonov 的 正则 化 理论 包含 两 项 : 
1. 标准 误差 项 。 该 项 用 %, (FF) 表示 ， 用 以 度量 对 于 训练 样本 i = 1，2，…，N 的 期 望 
人 定义 为 


&(CPD = Na, -y7 = + ila - FT (5.21) 


其 中 ， 我 们 引信 比例 因 于 1 是 为 了 与 和 而 几 间 保持 H. 
2. 正则 化 项 。 第 2 项 用 有 . (下 ) 表 示 ， 依 赖 于 通 近 函数 F(x) 的 “几何 ”性质 。 具 体 定 义 为 


8.(P) = > DF ||? (5.22) 


其 中 ,，D 是 线性 微分 算 子 。 关 于 解 ( 即 输入 -输出 映射 F(x) ) 的 形式 的 先 验 知识 就 包含 在 算 
子 DD 中 ,这 就 自然 使 得 D 的 选取 与 所 解 的 问题 有 关 。 我 们 也 称 D 为 稳定 因子 (stabilizer) ， 因 
为 它 使 正则 化 问题 的 解 稳定 ， 使 解 光滑 从 而 满足 连续 性 的 要 求 。 但 是 ， 光 滑 性 意味 着 连续 
性 ， 而 相反 未 必 为 真 。 

用 于 处 理 式 (5.22) 所 描述 情况 的 解析 方法 是 建立 在 函数 空间 号 的 概念 之 上 的 。 函 数 空间 
指 的 是 函数 的 赋 范 空间 中 。 在 这 样 的 多 维 (严格 说 来 是 无 限 多 维 ) 空 间 中 ， 一 个 连续 函数 由 一 
个 向 量 来 表示 。 在 这 种 几何 图 像 意义 上 ， 我 们 就 可 以 在 线性 微分 算 子 和 矩阵 之 间 建 立 深 刻 的 
联系 。 由 此 对 线性 系统 的 分 析 就 可 以 转变 为 对 线性 微分 方程 的 分 析 (ELanczos,1964 ) 。 

于 是 ， 式 (5.22) 中 的 符号 |- || 表示 定义 在 DF(x) 所 属 空 间 上 的 范 数 。 一 般 情况 下 这 里 
所 使 用 的 函数 空间 指 的 是 包含 了 所 有 实 值 函 数 f(x), xE RAY L Biel, HF || f(x) 站 是 
Lebesgue 可 积 的 。 这 里 用 函数 f(x) 表 示 实 际 定 义 的 负责 产生 输入 -输出 数据 对 |(x;, dN, 
的 物理 过 程 。 更 多 细节 参见 注释 ""。 

正则 化 理论 要 求 最 小 化 的 量 为 

ECP) = ECF) 428 (F) = F Dla - F(x;) P + FAI DE ||? (5.23) 


其 中 入 是 一 个 正 的 实数 ， 叫 做 正则 化 参数 ; ECF) Mik Tikhonov 5 5, — MZ PR BR RAR CGE 
义 在 某 个 适当 的 函数 空间 ) 到 实 直线 。 使 Tikhonov 2 KE ( F) Eh A Rt A E E ME E 
题 的 解 ) 记 为 F(x)。 


(5.20) 
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在 某 种 意义 上 ， 我 们 可 以 将 正则 化 参数 入 视 为 一 个 指示 器 ， 用 来 指示 所 给 的 数据 集 作为 
确定 解 F(x) 的 样本 的 充分 性 。 特 别 在 极限 情况 下 ， 当 >0 时， 表明 该 问题 不 受 约束 ， 问 
题解 (x) 完全 决定 于 所 给 样本 。 另 一 方面 ， 当 X->% 时 ， 表 明 仅 由 算 子 D 所 定义 的 先 验 光 
滑 条 件 就 足以 得 到 问题 的 解 F(x)， 这 也 是 所 给 样本 完全 不 可 信 的 另 一 种 说 法 。 在 实际 应 用 
中 ， 正 则 化 参数 取 值 在 上 述 两 个 极限 值 之 间 ， 使 得 样本 数据 和 先 验 信息 都 对 解 (x) 作 了 
贡献 。 因 此 正则 化 项 名 , (下) 表示 一 个 模型 复杂 性 -惩罚 函数 ， 其 对 最 终 解 的 影响 取决 于 正则 
化 参数 入 的 大 小 。 

另外 可 将 正则 化 看 作 提 供 第 2 章 讨 论 的 偏 置 -方差 困境 的 一 个 可 行 的 解 。 具 体 地 ， 在 正 
则 化 参数 、 的 最 优选 择 的 设计 中 通过 融合 恰当 的 先 验 知识 使 得 学 习 问 题 的 解 在 模型 偏 置 和 模 
型 方差 之 间 达 到 一 个 满意 的 平衡 。 


Tikhonov 泛 函 的 Fréchet 微分 


正则 化 原理 可 以 叙述 如 下 : 
求 使 Tikhonov % BE( F) Ro BK F(x), HP, Tikhonov 泛 函 由 
ECF) = €,(F) +a8,(F) 
RL, KPC (PERERA, E (PEETA, m ZEIA. 


ABET B/MORONZ BEF), RNS IRE REF) AAW RE, RAIT LAM Fréchet 微 
分 来 处 理 这 件 事 。 在 初等 微 积分 中 ， 曲 线 上 某 点 的 切线 是 在 该 点 邻 域 上 的 曲线 的 最 佳 逼 
近 直线 。 同 理 ， 一 个 泛 函 的 Fréchet 微分 可 以 解释 为 一 个 最 佳 局 部 线性 表 近 。 这 样 泛 函 名 
(五) 的 Fréchet 微分 可 正式 定义 如 下 (Domy, 1975; Debnath and Mikusifiski, 1990; de Figueiredo 
and Chen, 1993): 


d€(F,h) = | PEF +B] ， (5.24) 


上 式 中 h(x) 是 一 个 固定 的 关于 向 量 x 的 函数 。 在 式 (5.24) 中 应 用 通常 的 微分 法 则 。 函 数 F 
(xz) 为 泛 函 8( 忆 ) 的 一 个 相对 极 值 的 必要 条 件 是 对 于 所 有 的 EH, REl F) AY Fréchet 微分 d 
ECF, hE F(x) 处 均 为 零 ， 表 示 为 
d€(F,h) = d€,(F,h) +rd €,(F,h) = 0 (5.25) 
其 中 db,(F,h)Mdb.( Fh) DHE RE, (FME, (F)AY Fréchet 微分 。 
计算 式 (5.21) 标 准 误差 项 名, (F, A) 的 Fréchet 微分 如 下 : 


d€,(F,h) = | BEC po] P = [FA Mla - Fa- pre?) 


一 一 Mla ~ F(x;) - BDD] =- Did, - F(x,) ]h(x;) 


(5.26) 
在 讨论 的 这 一 点 上 ， 我 们 发 现 引 入 Riesz 表示 定理 是 有 益 的 (Debnath and Mikusifiski, 1990; 
Kirsch,1996 ) ， 它 可 陈述 如 下 : 


AfA Hilbert 空间 ( 即 一 个 完备 的 内 积 空 间 中 ， 用 符号 W 表 示 ) 上 的 一 个 有 界线 性 泛 函 。 
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存在 一 个 ACH, RAMA CHA 
f = Ch, ho doe 
且 Iflg = 上 ho 上 ge HE PH. Hilbert FH 4B Fl RH HHS A, 


1X BT FES (+, + oe BEANIE [A] ET ARR), FA, HY Riesz 表示 定理 ， 
我 们 可 以 重 写 式 (5.26) 的 Fréchet 微分 d E, (F, kM: 


dF,h) =- (h, Dd ~ FS), (5.27) 
式 中 8, 表示 以 x; 为 中 心 的 x 的 Dirac delta 分 布 ; 即 
ôs (x) = d(x ~ x;) (5.28) 
FT AA (5.22) WERE, (FAS Fréchet 微分 。 用 上 面 同样 的 方法 我 们 可 以 得 到 
d ld 
d€(F,h)= —6(F +B8h)| = 5S! (DUF +8h])*dx 
dB | 2 ‘al wre B=0 (5.29) 


= | DCF + Bh]Dhdx| = f „ DFDhdx = (Dh, DF)x 
Ro B=0 R70 


其 中 (Dh，DF)x 是 函数 Dh(x) 和 DF(x) 的 内 积 ， 函 数 Dh(x) 和 DF(x) 分 别 代表 了 微分 算 子 
D 作用 在 h(x) 和 F(x) 上 的 结果 。 
Euler-Lagrange 方程 

给 定 一 个 线性 微分 算 子 D， 我 们 可 以 惟一 确定 它 的 伴随 算 子 了 ,使 得 对 任 一 对 足够 可 微 
且 满 足 恰当 的 边界 条 件 的 函数 u(x) 和 v(x) 有 

| uO) Dv) dx = f Du dx (5.30) 

等 式 (5.30) 叫 做 Green BFA; 它 为 通过 给 定 微分 算 子 D 来 确定 其 伴随 算 子 五 提供 一 个 数学 
基础 。 将 D 看 作 一 个 矩阵 ， 则 其 伴随 算 子 D 的 作用 类 似 于 一 个 转 置 矩阵 的 作用 。 

比较 式 (5.30) 的 左边 和 式 (5.29) 的 第 四 行 ， 我 们 可 作出 如 下 恒等式 : 

u(x) = DF(x),Dv(x) = D(x) 

根据 Green 恒等式 可 将 式 (5.29) 重 写 为 等 价 形式 


d€,(F,h) = | h(x)DDF(x) dx = (h,DDF)x (5.31) 

其 中 也 是 D 的 伴随 算 子 。 
将 式 (5.27) 和 (5.31) 代 入 极 值 条 件 (5.25) 中 ， 可 以 重新 得 到 Fréchet 微分 4 (FA) RUF : 
a¢(F,h) = (n, [DDF - + 5 Ca, - Pal) (5.32) 


因为 正则 化 参数 和 通常 取 开 区 间 (0, %w ) 上 的 某 个 值 ， 所 以 当 且 仅 当 下 列 条 件 在 广义 函数 意义 
下 满足 时 ， 对 于 % 空 间 中 的 所 有 函数 h(x), Fréchet 微分 4 名 ( ,hh) 才 为 零 : 


或 者 等 价 地 ， 
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BDF, (x) = 3 D [d - F(x) ]8(x - x) (5.33) 


式 (5.33) 是 Tikhonov {Z HE ( F) A Euler-Lagrange 方程 ; 它 定义 Tikhonov % REF) F, (x) kb 
有 极 值 的 必要 条 件 (Debnath and Mikusifski, 1990 )。 


Green 函数 


HA (5.33) ÆRE BR F 的 偏 微分 方程 。 该 方程 的 解 是 由 方程 右边 的 积分 变换 组 成 的 。 

S C(x,5) 表 示 向 量 x 和 占 的 一 个 函数 ， 两 个 向 量 的 地 位 相同 ， 但 它们 的 目的 不 同 ; 向 
量 x 作 为 参数 ， 而 向 量 & 则 作为 自 变量 。 对 于 给 定 的 线性 微分 算 子 L， 我 们 规定 函数 C(x, 
5) 满 足 如 下 条 件 (Courant and Hilbert, 1970) : 

1. 对 于 固定 的 85，C(x,5) 是 x 的 函数 ， 且 满足 规定 的 边界 条 件 。 

2. 除了 在 点 x= 外 ，G(x,&) 对 于 x 的 导数 是 连续 的 。 导 数 的 次 数 由 线性 算 子 工 的 阶 数 
决定 。 

3. 将 GO, DAWE x HRA, RTEA x = 站 奇异 外 ， 它 满足 偏 微分 方程 


LG(x,E) = 0 (5.34) 
也 即 函 数 G(x,&) 满 足 ( 在 广义 函数 的 意义 下 ) 
LG(x,&) = 6(x - &) (5.35) 


HH, èx- EURIE ME x= E 的 Dirac delta 图 数 。 

因此 上 述 的 函数 C(x,5) 叫 做 微分 算 子 工 的 Green 函数 。Green 函数 对 于 线性 微分 算 子 的 
作用 类 似 于 一 个 抢 阵 的 逆 和 矩阵 对 该 算 阵 方程 的 作用 。 

S p(x) 表示 一 个 关于 xE BW 的 连续 或 者 分 段 连续 的 函数 。 那 么 函数 


F(x) = | G(x,§)@(&) dE (5.36) 


就 是 微分 方程 
LF(x) = 9(x) (5.37) 
的 解 ， 其 中 C(x,5) 是 线性 微分 算 子 工 的 Green 函数 (Courant and Hilbert, 1970 ) . 
为 了 证 明 F(x) 为 (5.37) 的 解 ， 我们 将 微分 算 子 工作 用 于 式 (5.36) 的 两 端 ， 可 得 


LFO) = I , CEEE dE) = | LEE) dE (5.38) 


微分 算 子 工 将 & 视 为 常量 ， 它 作用 于 C(x,8) 时 仅 将 其 视 为 xx 的 函数 。 将 式 (5.35) 代 人 式 
(5.38), A l 


LF(x) = | | a(x - EPE dE 
最 后 ， 利 用 Dirac Delta 函数 的 筛选 性 质 ， 可 得 
[one POA- EdE) = lx) 
这 样 我 们 就 得 到 了 如 式 (5.37) 所 描述 的 LF(x) = p(x)。 
正则 化 问题 的 解 
回 到 当前 的 问题 ， 下 面 我 们 来 解 Euler-Lagrange 微分 方程 ， 即 式 (5.33), > 
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L = DD (5.39) 
和 o&) = L Bd- FO) - x) (5.40) 
那么 根据 式 (5.36)， 有 加 
F(x) = | G(x,8){> Dla - F(x:)]8(E - x.) fag 


1 N 
=5 Dla: - FDI COx,5)8(CE ~ x,) dE 


上 式 第 二 行 交 换 了 积分 与 求 和 的 次 序 。 最 后 ， 利 用 Dirac Delta KARME, RITT LAE 
到 Euler-Lagrange 微分 方程 (5.33) 的 解 如 下 : 


F(x) = > Dia, - F(x) 16(%,x,) (5.41) 


式 (5.41) 说 明正 则 化 问题 的 最 小 化 解 F(x) EN 个 Green BHA B IN, x, 代表 扩展 中 
iy, REL ~ F(x )] 人 代表 展开 系数 。 换 句 话说 ， 正 则 化 问题 的 解 在 光滑 函数 的 空间 的 一 
个 NEPAL, Ax, i=1, 2, +, NWN — Green HH C(x, x) ART AF 
空间 的 基 (Poggio and Girsi,1990a )。 注 意 式 (5.41) 中 ， 展 开 系数 具有 如 下 性 质 : (1) 与 系统 的 
估计 误差 (定义 为 应 有 输出 由 和 相应 的 网 络 实际 计算 输出 已 (x) 之 差 ) 成 线性 关系 ; (2) 与 正 
则 化 参数 和 成 反比 。 


确定 展开 系数 
下 面 将 要 解决 的 问题 是 如 何 确定 式 (5.41) 中 的 展开 系数 。 令 
m = Ld Fa) i = 1,25 (5.42) 
则 正则 化 问题 的 最 小 化 解 (5.41) 可 以 写成 如 下 形式 : 
F(x) = 六 ucoa) (5.43) 
分 别 在 x ，/ = 1，2，…，N 上 计算 式 (5.43) 的 值 ， 可 得 
F(X) = PwC sn) = 1,2,……,N (5.44) 
现在 我 们 引入 如 下 定义 : i 
F, = [LF (x), Fx), Fy (xy) 1]? (5.45) 
d = [d,,d,,°"",dy]” (5.46) 
G(x,,X,) G(x,.x,) © GCx,, xy) 
G - Ca) COn m) vee COR) (5.47) 
G(Xy 5X) GlXy.%) … GCxy, Xy) 
w = [w w, wy] (5.48) 


然后 式 (5.42) 和 (5.44) 可 分 别 写 成 矩阵 形式 
w= da-n) (5.49) 
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和 F, = Gw (5.50) 
消去 式 (5.49) 和 (5.50) 中 的 F,， 重 新 调整 项 我 们 可 得 
(G+ADwe=d (5.51) 


其 中 I 是 一 个 Nx NARRER., EE G 称 为 Green EE. 
式 (5.39) 所 定义 的 线性 微分 算 子 工 是 自 伴 的 ， 它 的 伴随 算 子 等 于 它 自 身 。 因 此 ， 与 其 相 
关 的 Green 函数 C(x,xi EXER, BIRAR i, j 都 有 
G(x; ,x;) = G(x;,x;) (5.52) 
式 (5.52) 表 明 Green 函数 C(x, OMA AH x 和 占 的 位 置 是 可 以 互 换 的 而 不 影响 它 的 值 。 
等 价 地 ， 式 (5.47) 所 定义 的 Green 矩阵 G 是 对 称 和 矩阵 ， 即 
G7 = G (5.53) 
现在 我 们 回顾 一 下 插值 定理 ， 它 在 5.3 节 中 利用 插值 矩阵 @ 进行 描述 。 我 们 首先 注意 到 
Green 矩阵 G 在 正则 化 理论 中 所 起 的 作用 与 插值 矩阵 ® 在 RBF 插值 理论 中 所 起 的 作用 相同 。 
它们 都 是 N x N 阶 的 对 称 阵 。 因 此 ， 我 们 可 以 说 ， 对 于 某 类 Green 函数 ， 只 要 所 提供 的 数据 
FAX) X, ts Xy 是 互 不 相同 的 ， 则 Green 矩阵 就 是 正定 的 。 满 足 Micchelli 定理 的 Green K 
数 包 括 逆 多 二 次 函数 和 Gauss 函数 ， 但 是 没有 多 二 次 函数 。 实 际 上 ， 我 们 总 是 将 入 选 得 足够 
大 ， 使 得 G+ 和 [是 正定 的 ， 从 而 是 可 逆 的 。 这 样式 (5.51) 所 表示 的 线性 方程 组 就 具有 惟一 解 
(Poggio and Girosi, 1990a ) : 
w= (G+ AD"d (5.54) 
因此 ， 只 要 选 定 了 微分 算 子 D， 从 而 确定 了 相应 的 Green 函数 G(x,.x,), i=1, 2, =, N, 
我 们 就 可 以 通过 计算 式 (5.54) 得 到 与 某 一 特定 期 望 输出 向 量 d 以 及 合适 的 正则 化 参数 值 X 相 
对 应 的 权 值 向 量 w。 
总 之 ， 我 们 可 以 说 正则 化 问题 的 解 可 以 由 展开 式 中 


F, (x) = X nca, x,) (5.55) 


给 出 ， 其 中 G(x,x,) 是 自 伴 微分 算 子 L= Bp 的 Green Kt, w, 是 权 值 向 量 w 的 第 i SICH, 
这 两 个 量 分 别 由 式 (5.53) 和 式 (5.54) 定 义 。 由 式 (5.55) 可 知 (Poggio and Girosi, 1990a ): 
。 正则 化 方法 等 价 于 在 一 组 Green 函数 的 基础 上 解 的 展开 ,它们 的 特性 只 决定 于 所 采 
用 的 稳定 因子 D 的 形式 和 相关 的 边界 条 件 。 

。 在 展开 式 中 所 用 到 的 Green 函数 的 个 数 与 训练 过 程 中 所 用 的 样本 数据 点 的 个 数 相同 。 

但 是 应 该 注意 的 是 ， 式 (5.55) 所 给 出 的 正则 化 问题 的 解 是 不 完整 的 ， 因 为 它 代表 一 个 对 
位 于 算 子 D 的 零 空间 上 项 g(x) 的 解 的 模 (Poggio and Girosi, 1990a )。 我 们 这 么 说 是 因为 所 有 
位 于 了 的 零 空间 上 的 函数 对 于 式 (5.23) 的 目标 泛 函 针 ( 下) 中 的 上 DF ||? 项 都 是 “不 可 见 ”的 。 
我 们 所 说 D 的 零 空间 是 指 所 有 满足 Dg 等 于 零 的 函数 g(x) 的 集合 。 附 加 项 g(x) 的 确切 形式 
是 依赖 问题 的 ， 也 就 是 它 取决 于 问题 的 稳定 因子 的 选取 以 及 边界 条 件 。 例 如 ， 当 稳定 因子 D 
对 应 于 一 个 钟 形 Green 函数 ， 如 Gauss 函数 或 者 道 多 二 次 函数 ， 此 时 就 不 需要 g(x). HFX 
个 原因 ， 并 且 它 的 存在 并 不 会 对 最 后 主要 结果 产生 影响 ， 所 以 我 们 在 结果 中 忽略 这 个 问题 。 

对 于 某 一 特定 的 中 心 x; Green 函数 的 特性 只 取决 于 所 选 的 稳定 因子 ， 即 只 取决 于 关于 
输入 -输出 映射 的 先 验 假设 。 如 果 所 选 的 稳定 因子 D 具有 平移 不 变性 ， 则 以 x, 为 中 心 的 
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Green 函数 G(x, x) RBURF BER x Al x, 之 差 ; 即 
G(x,x,) = G(x — x;) (5.56) 
如 果 稳 定 因子 D 是 平移 不 变 和 旋转 不 变 的 ， 则 Green 函数 C(x,x ) 只 取决 于 向 量 x- x; 的 
Euclid 范 数 ， 表 示 为 
G(x,x,) = G(||x- x; ll) (5.57) 
在 这 些 条 件 下 ，Green pa — FE AEE Ii EP, WEIN, 30 (5.55) AO TEU ET A A BARK 
如 下 形式 (Poggio and Girosi, 1990a) : 


AG) = Puc x- xl) (5.58) 


式 (5.58) 所 描述 的 解构 造 一 个 依赖 于 已 知 数据 点 的 Euclid 距离 度量 的 线性 函数 空间 。 

式 (5.58) 所 描述 的 解 叫做 严格 插值 解 ， 因 为 所 有 N 个 已 知 训练 数据 点 都 被 用 于 生成 插 
值 函数 R(x)。 但 是 ， 值 得 注意 的 是 式 (5.58) 与 式 (5.11) 所 表示 的 解 有 根本 不 同 : 式 (5. 58) 
的 解 被 式 (5.54) 给 出 的 权重 向 量 w 的 定义 所 正则 化 。 只 有 当 我 们 将 正则 化 参数 入 设 为 零 时 ， 
这 两 个 解 才 是 一 样 的 。 
多 元 Gauss 函数 


Green 函数 C(x,xi ) 的 相应 的 线性 微分 算 子 D 是 平移 不 变 和 旋转 不 变 的 并 且 它 满足 式 
(5.57) 的 条 件 ， 此 时 Green 函数 具有 重要 实际 意义 。 这 类 Green 函数 的 一 个 例子 是 多 元 Gauss 
PRI, TEMA 


Cw) = exp( ~ 3g Ix = x: 11?) (5.59) 


其 中 x, 表示 函数 的 中 心 ， 而 o, 则 表示 它 的 宽度 。 与 式 (5.59) 所 示 Green 函数 相对 应 的 自 伴 
随 算 子 L =DD 由 下 式 给 出 (Poggio and Girosi, 1990a): 


L= C D'a, V” (5.60) 
2n 
G; 
其 中 a, =F (5.61) 
WV" mo 维 多 重 拉 普 拉 斯 算 子 
Vi (5.62) 
= 2+ ae + 十 TA . 


因为 式 (5.60) 中 工 的 项 数 允许 到 无 穷 ， 所 以 从 标准 意义 上 说 工 并 不 是 一 个 微分 算 子 。 因 此 ， 
我 们 将 式 (5.60) 中 的 工 称 为 伪 微 分 算 子 。 
由 于 定义 L=DD， 由 式 (5.60) 我 们 可 以 推导 出 算 子 D 和 了 如 下 (参见 注释 [10]): 


9 9 ) i2 a" 


9 
D- Daran tan t+ To 86) 


Qn Zaz b. 3 k 
DKS I 19 *°* I Em 


atbtc+then 


— © 
PTEE 


(5.64) 





~ 9 9 a \" 
和 B= -vW stag tte = dy (- Daw 
n mo 


a+b+""+k=n 
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因此 通过 使 用 包括 所 有 可 能 偏 导 数 在 内 的 稳定 因 于 ， 可 以 得 到 式 (5.58) 形 式 的 正则 解 。 
将 式 (5.59) 至 (5.61) 代 入 式 (5.35) 且 令 名 为 x;:， 则 我 们 有 


2n 
(= 1)" v expl -5 lx- x I?) = a(x x) (5.65) 
n n!2 2o; 


利用 (5.59) 定 义 的 Green 函数 的 特殊 形式 ， 我 们 就 可 以 将 式 ($.5$) 给 出 的 正则 化 解 写 成 多 元 
Gauss KARERE RU F : 
1 


F, (x) = >} wel - 36 | x - x, || +) (5.66) 


其 中 线性 权 值 w 由 式 (5.42) 定 义 。 

在 式 (5.66) 中 ， 定 义 逼 近 函 数 F(x) 的 各 Gauss 项 的 方差 是 不 同 的 。 为 简化 起 见 ， 通 常 认 
为 在 F(x) 中 对 所 有 的 i 都 有 o =o 。 尽 管 这 样 设计 的 RBF 网 络 是 受到 一 定 限制 的 一 种 ,但 
其 仍 不 失 为 一 个 通用 逼近 器 (Park and Sandberg, 1991)。 


5.6 正则 化 网 络 


式 (35.55) 给 出 的 正则 化 逼近 函数 F(x) FATE x, 的 Green 函数 G(x, x; ) 的 展开 预示 
着 图 5-4 所 示 网 络 结构 为 其 提供 一 个 实现 方法 。 基 于 明显 的 原因 ， 这 种 网 络 结构 被 称 为 正则 
化 网 络 (Poggio and Girosi,1990a ). 205.1 节 所 述 的 网 络 一 样 ， 该 网 络 包括 三 层 。 第 一 层 是 由 
输入 节点 组 成 的 ， 输 入 节点 数目 等 于 输入 向 量 x 的 维 数 mo ( 即 问题 的 独立 变量 数 )。 第 二 层 
是 隐藏 层 ， 它 是 由 直接 与 所 有 输入 节点 相连 的 非 线性 单元 组 成 的 。 一 个 隐藏 单 元 对 应 一 个 数 
HAX, i=1, 2, +, N, PN 表示 训练 样本 的 长 度 。 每 个 隐藏 单元 的 激活 函数 由 Green 
函数 定义 。 由 此 第 i 个 隐藏 单元 的 输出 是 G(x,x;)。 输 出 层 仅 包括 一 个 线性 单元 ， 它 与 所 有 
隐藏 单元 相连 。 这 里 所 谓 的 “线性 ” 指 的 是 网 络 的 输出 是 隐藏 单元 输出 的 线性 加 权 和 。 输 出 层 
的 权 值 就 是 未 知 的 展开 系数 ， 如 式 (5.54) 所 示 ， 它 是 由 Green 函数 G(x, x, ) 和 正则 化 参数 入 
决定 。 图 5-4 描绘 一 个 单 输出 的 正则 化 网 络 的 结构 图 。 显 然 ， 我 们 可 以 将 其 推广 为 包括 任意 
期 望 输出 数目 的 正则 化 网 络 。 





输入 层 N 个 Green 函数 的 隐藏 层 输出 层 


图 5-4 正则 化 网 络 


图 5-4 所 示 的 正则 化 网 络 假设 Green 函数 G(x,x; ) 对 所 有 的 i 都 是 正定 的 。 假 设 上 述 条 件 
成 立 ， 例 如 ，Green 函数 具有 式 (5.59) 所 示 Gauss 形式 , 则 由 该 网 络 所 得 到 的 解 在 泛 函 8( 亚 ) 最 小 
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望 的 性 质 (Poggio and Girosi , 1990a ): Y= 

1. 正则 化 网 络 是 一 个 通用 逼近 器 ， 
只 要 有 足够 多 的 隐藏 单元 ， 它 可 以 以 
任意 精度 逼近 定义 在 R 的 紧 子 集 上 
的 任何 多 元 连续 函数 。 

2. 由 于 正则 化 理论 导出 的 逼近 格 
式 的 未 知 系数 是 线性 的 ， 这 样 该 网 络 具 
有 最 住 通 近 性 能 。 这 说 明 给 定 一 个 未 知 
的 非 线 性 函数 /， 总 可 选择 一 组 系数 使 得 
它 对 /的 逼近 优 于 所 有 其 他 可 能 选择 。 

3. 由 正则 化 网 络 求 得 的 解 是 最 佳 
的 。 这 里 的 最 佳 是 指正 则 化 网 络 使 测 
量 训 练 样本 表示 的 解 与 真实 值 有 多 大 图 5-5 径 向 基 函 数 网 络 
偏差 的 泛 函 最 小 化 。 


5.7 广义 径 向 基 函 数 网 络 


由 于 输入 向 量 x, 与 Green 函数 C(x,x)，i=1，2，…，N 之 间 的 一 一 对 应 的 关系 ， 有 
时 候 如 果 N 太 大 了 ,实现 它 的 计算 量 将 大 得 惊人 。 特 别 是 在 计算 网 络 的 线性 权 值 ( 即 式 
(5.55) 中 的 展开 系数 ) 时 ， 要 求 计算 一 个 N x N 阶 矩 阵 的 逆 ， 其 计算 量 按 NN 的 多 项 式 增长 
(大 约 为 W )。 另 外 和 矩阵 越 大 ， 其 病态 的 可 能 性 越 高 ， 一 个 矩阵 的 条 件数 被 定义 为 该 算 阵 的 
最 大 特征 值 与 其 最 小 特征 值 的 比值 。 为 了 克服 这 些 计算 上 的 困难 ， 我 们 通常 要 降低 神经 网 络 
的 复杂 度 ， 这 要 求 一 个 正则 化 解 的 近似 。 

解决 办 法 是 在 一 个 较 低 维 数 的 空间 中 求 一 个 次 优 解 ， 以 此 来 逼近 式 (5.55) 所 给 出 的 正则 
化 解 。 这 可 以 通过 变 分 问题 中 通称 Galerkin 方法 的 标准 技术 实现 。 根 据 这 个 技术 ， 近 似 解 
F (x) 将 在 一 个 有 限 基 上 进行 扩展 ， 表 示 为 (Poggio and Girosi, 1990a) 


F* (x) = E mg) (5.67) 
FER fo, (x) li=1,2,--,m, | 是 一 组 新 的 基 函 数 ， 不 失 一 般 性 我 们 假设 它们 线性 独立 。 典 型 
情况 下 这 组 新 的 基 范 数 的 个 数 小 于 输入 数据 点 的 个 数 ( 即 m < N), FE w 组 成 一 组 新 的 权 
HRA. MHZ MR, RT 
p(x) = GC \lx-t, ||), i = 1,2, ,mi (5.68) 
其 中 中 心 集 {t.1i= 1,2,… ,mi FE. ARKKI RECARE Ki, ERE 
m=N, 且 6=x，i=1 2, --, NOt, 其 解 与 式 (5.58) 的 正确 解 一 致 。 因 此 将 式 (5.68) 代 
人 式 (5.67) 中 ， 我们 可 以 重新 定义 严 ”(x) 为 


F* (x) = >) wiC(x, ti) = > wG | x-t I ) (5.69) 


op 6h IBLF” (x) 的 (5.69) 的 展开 形式 ， 我 们 将 要 解决 的 问题 是 确定 一 组 新 的 权 什 
jwi1i=1,2,…, mi |， 使 新 的 代价 泛 函 @(" ) 最 小 化 ， 新 代价 泛 函 由 
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ECF” ) = Bla- Dwele -4 1) +al|DF* ||? (5.70) 
定义 。 式 (5. 70) 右 边 第 一 项 可 以 写成 欧 几 里 德 范 数 平方 l d- Gwl’, Æ} 
d = [dd dy] (5.71) 
G(x,t) G(x, ,tb) wee G(x, ,tw ) 
G(x, t) G(x%,b) we G(x stn ) 
G = . o (5.72) 
G(xyot) G(Xy,b) +) G(xy stn, ) 
w= [w w, 0, 1" (5.73) 


1 


期 望 响应 向 量 d 与 前 面 一 样 是 N 维 的 。 但 是 ，Green 函数 的 矩阵 G 和 权 值 向 量 w 的 维 数 却 
ARFER ERF G 现在 是 N x m 阶 的 ， 所 以 不 再 是 对 称 的， 而 向 量 w 是 m, x1 的。 由 式 
《5.69) 我 们 注意 到 ， 近 似 函 数 F* 是 由 稳定 因子 D 决定 的 Green 函数 的 线性 组 合 。 因 此 ， 我 
们 可 以 将 式 (5.70) 右 边 第 二 项 写成 


[DF |? = (DF ,DF Ye = [Z a6) DD Dywe6t], 
(5.74) 
= [X w0 at), Yat], = >) Bun ,t;) = WwW Gow 
其 中 第 二 个 和 第 三 个 相等 项 分 别 利用 伴随 算 子 的 定义 和 式 (5.35)。 矩 阵 Go 是 一 个 m x m 
阶 的 对 称 阵 ， 定 义 为 


GCC) Glib) = Glb,t,) 
G(t,,t,) G(t, st) vee GCG, tn ) 
G = f . o (5.75) 
Gt sb) Citn sb) Clty, st ) 
以 权 值 向 量 w 为 变量 求 式 (5.70) 的 最 小 值 ， 可 以 得 到 以 下 结果 (参看 习题 5.5): 
(G’G + AG,), = G'd (5.76) 


当 正 则 化 参数 、 趋 近 零 时 ， 权 值 向 量 w 趋 于 一 个 超 定 的 最 小 平方 数据 - 拟 合 问题 (因为 m <N) 
的 伪 逆 (最 小 范 数 ) 解 ， 表 示 为 (Broomhead and Lowe, 1988 ) 

w= Gd,X3=0 (5.77) 
其 中 Gt EER G 的 伪 逆 ; 即 

G* = (G’G)'G’ (5.78) 


加 权 范 数 
式 (5.69) 中 的 范 数 通常 指 的 是 欧 几 里 德 范 数 。 然 而 ， 当 输入 向 量 x 的 分 量 属于 不 同 的 类 
时 ， 将 其 视 为 一 般 的 加 权 范 数 会 更 合理 , 加 权 范 数 的 平方 形式 由 
xle = (Cx) (Cx) = x CT7Cx (5.79) 
定义 (Poggio and Girosi,1990a ) ， 其 中 C 是 一 个 my x mo WIER, m 是 输入 向 量 x 的 维 数 。 
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利用 加 权 范 数 的 定义 ， 我 们 可 以 将 式 (5.69) 中 正则 化 问题 的 近似 解 写成 如 下 更 一 般 的 形 
式 (Lowe, 1989; Poggio and Girosi, 1990a): 


F” (x) = Sc |x- t; le) (5.80) 


引 人 加 权 范 数 可 以 用 两 种 方式 解释 。 我 们 可 以 简单 将 其 视 为 对 原始 输入 空间 做 一 个 份 射 
变换 。 原 则 上 这 种 变换 并 不 会 降低 原来 不 加 权 的 结果 ， 因 为 原来 不 加 权 的 范 数 实际 上 对 应 于 
一 个 单位 矩阵 的 加 权 范 数 。 另 一 方面 ， 加 权 范 数 可 以 看 作 直 接 从 式 (5.63) 定 义 的 mo 维 
Laplace 伪 微 分 算 子 D 的 少许 推广 ; 参见 习题 $.6。 使 用 加 权 范 数 的 合理 性 在 Gauss 径 向 基 范 
数 背 景 下 可 以 解释 如 下 。 一 个 以 & AP OMA A RMA CH Gauss 径 向 基 函 数 
G(x-t | ec) 可 写成 

C(x- tc)= expl- (x - t,)"€"C(x -6)] 


5.81 
= exp[ - F(x - 4)7E"(x- t,)] (5-81) 


ope DE SE'=C7C (5.82) 


式 (5.81) 表 示 一 个 具有 均值 向 量 t 和 协 方差 矩阵 也 的 多 元 Gauss 分 布 。 基 于 此 ， 它 是 式 
(5.59) 描 述 分 布 的 推广 。 

式 (5.70) 中 通 近 问题 的 解 为 具有 如 图 5-5 结构 的 广义 径 向 基 喇 数 网 络 提 供 了 一 个 框架 。 
在 这 种 网 络 中 ， 输 出 单元 上 有 一 个 偏 置 ( 即 独立 于 数据 的 变量 )。 要 做 到 这 一 点 可 以 简单 将 输 
出 层 的 一 个 线性 权 值 置 为 偏 置 值 ， 同 时 将 与 该 权 值 相对 应 的 径 向 基 函 数 视 为 一 个 等 于 + 1 的 
常量 。 

从 结构 上 看 ， 图 5-5 所 示 的 广义 RBF 网 络 与 图 5-4 所 示 的 正则 化 RBF 网 络 相似 。 但 它 
们 在 以 下 两 个 重要 的 方面 不 同 : 

1. 图 5-5 所 示 的 广义 RBF 网 络 隐藏 层 的 节点 数 为 m, MA m 总 是 小 于 用 于 训练 的 样 
本 数 N。 另 一 方面 ， 图 5-4 所 示 的 正则 化 RBF 网 络 的 隐藏 单元 数 恰 为 No 

2. 在 图 5-5 的 广义 RBF 网 络 中 ， 与 输出 层 相 连 的 线性 权 值 向 量 ， 以 及 与 隐藏 层 相 连 的 
径 向 基 枯 数 的 中 心 和 范 数 加 权 撼 阵 ， 均 为 待 学 习 的 未 知 参数 。 而 图 5-4 的 正则 化 RBF 网 络 
隐藏 层 的 激活 函数 是 已 知 的 ， 它 定义 为 一 组 以 训练 样本 点 为 中 心 的 Green 函数 ; 输出 层 的 权 
值 向 量 是 网 络 的 惟一 的 未 知 参数 。 
接受 域 

协 方差 矩阵 三 决 定式 (5.81) 给 出 的 Gauss 径 向 基 函 数 G( | x-t, || \HRSR, SE 
个 中 心 ，G( 上 x- 外 。) 的 接受 域 形式 地 定义 为 函数 

W(x) = G(|x-t|c)-a (5.83) 

的 支 集 ， 其 中 a 是 一 个 正常 数 (Xu et al., 1994), MAB, CC x -4 || ) 的 接受 域 是 输入 
向 量 x 的 定义 域 的 一 个 特殊 子 集 ， 这 个 子 集 中 的 所 有 x 都 能 使 G( ex -& | 上。) 取 值 大 于 给 定 


水 平 Qo 
根据 加 权 范 数 矩 阵 C 的 不 同 定义 方式 ， 我 们 可 以 分 三 种 情况 讨论 协 方差 矩阵 DR 
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接受 域 的 形状 、 大 小 和 方向 的 影响 : 

1. 允 = oTI， 其 中 工 是 单位 矩阵 ，o 是 公共 方差 。 此 时 ，G( 上 x-t; 上) 的 接受 域 是 以 & 
为 中 心 和 半径 由 o 决定 的 超 球面 。 

2.2 diag(of ,02,… ,om )， 其 中 9 是 输入 向 量 x 的 第 j 个 分 量 的 方差 ,j= 1，2，…， 
mo。 在 这 种 情形 ，G( 上 x -t; || ) 的 接受 域 是 一 个 超 椭 圆 面 ， 它 的 轴 与 输入 空间 的 轴 一 致 ， 
沿 第 j 个 轴 的 伸延 由 o 决定 。 

3.28 MEM ARE. RHE, 允 是 一 个 正定 矩阵 。 所 以 我 们 可 以 用 和 矩阵 代数 中 的 
相似 变换 来 分 解 允 如 下 : 

x = Q’AQ (5.84) 

其 中 和 A 是 一 个 对 角 和 矩阵 ， 而 Q ETERS. EAR ERERHBRAK), 
而 和 矩阵 Q 决定 接受 域 的 方向 。 


5.8 XOR 问题 (再 讨论 ) 


再 考虑 第 4 章 中 我 们 用 单 隐藏 层 的 多 层 感 知 器 模型 解决 过 的 XOR( 蜡 或 ) 问 题 。 这 里 我 们 
将 给 出 用 RBF 网 络 求解 这 个 问题 的 解 。 
被 研究 的 RBF 网 络 由 一 对 Gauss 函数 组 成 ， 它 们 定义 如 下 : 
GC \lx - t ll) = exp(- l x-t l?) i = 1,2 (5.85) 
其 中 中 心 Alt H 
t = [1,1] ,b = [0,0]” 
对 输出 单元 的 特性 ， 我 们 作 如 下 假设 : 
1. 由 于 问题 是 对 称 的 ， 输 出 单元 使 用 权 值 共享 ， 这 是 先 验 知识 能 人 网 络 设计 的 一 种 形 
式 。 因 此 ， 虽 然 有 两 个 隐藏 单元， 我 们 只 有 一 个 权 值 w 有 待 确定 。 
2. 输出 单元 包括 一 个 偏 置 5( 即 独立 于 数据 的 变量 )。 此 偏 置 的 作用 是 保证 XOR 函数 具 
. 有 非 零 均 值 的 输出 值 。 
用 于 解决 XOR 问题 的 RBF 网 络 结构 如 图 5-6 所 示 。 该 网 络 的 输入 输出 关系 可 定义 为 
9 固定 输入 =+1 
b ( 偏 置 ) 






输入 节点 Gauss 函数 线性 输出 神经 元 
图 5-6 求解 XOR 问题 的 RBF 网 络 


2 


y(x) = J w6(||x-t, ||) + 6 (5.86) 


为 了 拟 合 表 5-2 所 示 的 训练 数据 ， 我 们 要 求 
y(%)=d, 了 = 12,3,4 (5.87) 
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其 中 x, 是 输入 向 量 ，d 是 与 其 相应 的 期 望 输出 值 。 令 





g = GCllx,-t, 11), j= 1,2,3,4;i = 1,2 (5.88) 
利用 表 5-2 的 值 代入 式 ($.88) ， 我 们 可 以 得 到 如 下 以 矩阵 形式 表示 的 方程 组 ; 
Gw=d (5.89) 
R52 XOR 问题 的 输入 - 输出 变换 计算 
数据 点 j 输入 模式 x, 期 望 输出 d 
1 (1,1) 0 
2 (0,1) 
3 (0,0) 0 
4 (1,0) 1 
1 0.1353 1 
0.3678 0.3678 1 
G= 5.90 
其 中 0.1353 1 1 ( ) 
0.3678 0.3678 1 
d=[0 1 0 1 (5.91) 
w=[w w b]” (5.92) 


这 里 描述 的 问题 是 超 定 的 ， 这 是 就 数据 点 的 个 数 比 自由 参数 数目 多 的 意义 而 言 的 。 这 就 解释 
EE G 为 什么 不 是 方 阵 的 原因 。 因 此 ， 和 矩阵 G 不 存在 惟一 的 道 。 为 了 克服 这 个 困难 ， 我 们 
用 式 (5.78) 的 最 小 范 数 解 来 解决 这 个 问题 ， 由 此 可 得 

w = G d = (G'G) Gd (5.93) 
注意 G'’G E—-THE, HFE. BRS. 90) RAR(5.93), 我们 有 


1.8292 — 1.2509 0.6727 - 1.2509 
G= | 0.6727 - 1.2509 1.8292 - 230 (5.94) 
~ 0.9202 1.4202 - 0.9202 1.4202 
最 后 ， 将 式 (5.91) 和 式 ($.94) 都 代入 式 ($.93) 中 ， 可 得 
~ 2.5018 
w= - ns 
+ 2.8404 
这 样 ， 我 们 就 用 RBF 网 络 完整 解决 了 XOR 问题 。 
5.9 正则 化 参数 估计 


正则 化 参数 入 在 5.5 节 至 $.7 节 提 出 的 径 向 基 函 数 网 络 正 则 化 理论 中 起 着 中 心 的 作用 。 
为 了 更 好 的 利用 这 个 理论 ， 我 们 需要 一 个 估计 入 的 相当 于 原理 性 的 方法 。 
为 了 形成 我 们 的 思想 ， 先 考虑 一 个 非 线性 回归 问题 ， 它 由 一 个 模型 描述 ， 其 中 与 第 i 时 
间 步 的 输入 向 量 x, 相对 应 的 可 观测 输出 7 定义 为 
| y = fates i=1,2,,N (5.95) 
此 处 f(x;) 是 一 条 “光滑 曲线 ”，e, 是 一 个 均值 为 零 和 方差 为 的 白 噪 声 过 程 的 采样 。 即 
Ele] =0 对 所 有 i (5.96) 


(33) 
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和 Eles] fe ie Ret (5.97) 


问题 是 在 给 定 一 组 训练 样本 |(x; ，y;) | 的 条 件 下 ， 重 建 该 模型 的 固有 函数 x) 
令 五 (x) 为 /(x) 相 对 于 某 个 正则 化 参数 的 正则 化 估计 。 即 成 (x) 为 使 表示 非 线 性 回归 
问题 的 Tikhonov 7 PK 
CF) = 3 Diy- FOIE + 5 DEG Il? (5.98) 
达到 最 小 的 最 小 化 函数 。 选 择 一 个 合适 的 值 并 不 是 一 个 简单 事 ， 它 需要 在 下 面 两 种 矛盾 的 
情况 之 间 加 以 权 稀 : 
e h DFC) ||? 项 来 度量 解 的 粗糙 度 
。 由 Diy - Fa) P 项 来 度量 数据 的 失真 度 
这 一 节 的 主题 是 讨论 如 何 选择 好 的 正则 化 参数 )。 
均 方 误差 
令 RM) 表示 模型 的 回归 函数 /(x) 和 表示 在 正则 化 参数 和 某 一 值 下 的 解 的 逼近 函数 F, 
(x) 之 间 在 整个 给 定 集合 上 的 均 方 误差 。 即 
RO) = Hy DAG) - ROP (5.99) 


所 谓 最 佳 、 指 的 是 使 六 (入 ) 取 最 小 的 入 值 。 


F(x) = Dyan Ny (5.100) 
用 等 价 的 矩阵 形式 写成 

F, = A(A)y (5.101) 
其 中 F, =(F,0%,), F(x),, Fu (xy) 1" 

y= [yy yw] 

Q@y an č * A 
A A| P T (5.102) 

CN Am `“ QW 


其 中 N x NIER A (A) 称 为 影响 矩阵 。 
用 上 述 的 矩阵 符号 ， 我 们 可 将 式 (5.99) 重 新 写成 


RA) =+- RIP = 
其 中 N x1 的 向 量 f 为 


Alf-ACDy i? (5.103) 
= A) A) fxn)] 


我 们 可 以 进一步 将 式 (5.95) 也 写成 矩阵 形式 
y=f+e (5.104) 
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其 中 E= [eE EN] 
因此 ， 将 式 (5.104) 代 入 式 (5.103) 中 并 展开 ， 可 得 


RQ) = ŁA- AODF- ADE l? 


> (5.105) 
= yl- AQDEI? - ZeAQDA- AQ) t+ L | Ae Il? 


其 中 I 是 一 个 N x N 的 单位 矩阵 。 为 求 RON) 的 期 望 值 ， 注 意 下 述 几 点 ， 

。 式 (5.105) 的 右边 第 一 项 是 一 个 常数 ， 因 此 它 不 受 期 望 算 子 的 影响 。 

。 由 式 (5.96) 可 知 ， 第 一 项 的 期 望 为 零 。 

。 纯 量 | A(X)e 上 ?的 期 望 为 

E[ | AQQell*]= ELE AT OAOE] 
= wWiE[eAT(A)A()e]! = Eltrle7A™(A)A(A)s]} 

其 中 我 们 首先 用 到 了 纯 量 的 迹 等 于 纯 量 本 身 的 性 质 ， 然 后 交换 了 期 望 运 算 和 求 迹 运算 的 
次 序 。 

接 下 来 我 们 利用 和 矩阵 代数 中 的 如 下 规则 给 定 两 个 具有 相 容 维 数 的 矩阵 B 和 C，BC 的 
迹 等 于 CB 的 迹 。 令 B= ，C= A (X)A(X)s， 则 式 (5.106) 可 以 写成 等 价 形式 


(5.106) 


EC | AQ?) = Elt A WAO) ]}] = etl ATA)AQ)] (5.107) 
上 式 中 的 最 后 一 行 根 据 式 (5.97) 可 得 。 最 后 注意 到 A7(A)A(A) 的 迹 等 于 Az(A) 的 迹 ， 则 
E[ | ACT ] = otr[A2(OA)] (5.108) 
将 这 三 项 结果 结合 起 来 ，R(A) 期 望 值 可 表示 为 
ELRO)] = $ 1- AQUEI? + Sele] (5.109) 


但 是 ， 一 个 给 定数 据 集 的 均 方 误差 R(M) 在 实际 中 并 不 好 用 ， 因 为 式 (5.109) 中 需要 回归 
函数 f(x) 的 知识 ， 它 是 有 待 重建 的 函数 。 我 们 引入 如 下 定义 作为 R(X) 的 估计 (Craven and 
Wahba, 1979) : 


RO) = Hl- AQ)? + Kal] - Sla A (5.110) 
它 是 无 偏 估计 ， 因 此 (按照 导出 式 ($.109) 所 述 的 相似 过 程 ) 我 们 可 证 明 
ELRQ)] = ELRQ)] (5.111) 
所 以 ,使 估计 ROD BAW MART PEW TE Le 的 一 个 好 的 选择 。 
广义 交叉 确认 


使 用 估计 让 (X) 的 一 个 缺陷 是 它 要 求知 道 噪声 的 方差 f。 在 实际 情况 中 ，o 通常 是 未 知 


的 。 为 了 处 理 这 种 情况 ， 下 面 我 们 将 介绍 广义 交叉 确认 ， 它 最 早 是 由 Craven and Wahba [287] 


(1979) 提 出 的 。 
我 们 从 修改 通常 的 交叉 确认 的 留 一 形式 (在 第 4 章 描述 ) 开 始 来 处 理 这 个 问题 。 具 体 地 ， 

令 FE (为 使 泛 函 
ECP) => Din PF + 4 IDF) |? (5.112) 
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最 小 化 的 函数 ， 其 中 标准 误差 项 中 省 略 了 第 上 项 [m ~ F(xi)]。 通 过 留 出 这 一 项 ， 我们 将 
FOF, (x) 预 报 缺 损 数据 点 y 的 能 力 来 衡量 参数 和 的 好 坏 。 因 此 ， 我 们 可 以 引入 性 能 度量 


VA) = x) LY - F(x) P (5.113) 


Vo A) MLR MEF BE A. BORE 入 的 普 通 交 又 确认 估计 即 为 使 V,(^) 最 小 化 的 函数 (Wahba， 
1990 )。 

FLY (x, ) 一 个 有 用 的 性 质 是 如 果 用 预测 FI Ox, ) 来 代替 数据 点 y 的 值 ， 使 用 数据 点 yi, 
Yor Vets Veo Ykes U> YN 使 (5.98) 的 原始 Tikhonov 泛 函 名 (三 ) 最 小 ， 则 FE (x, ) 就 是 
所 求 的 解 。 这 个 性 质 以 及 对 于 每 一 个 输入 向 量 x， 妥 ( 有) 的 最 小 化 函数 (x) 线性 依赖 于 y, 
这 使 我 们 有 


FE Om) = ROD + CAE On) - y) A (5-114) 
HCS. 100) SE X AOR MIRE RAE A(X) 的 分 量 ， 我 们 很 容易 看 出 
9 iC k 
= oO) (5.115) 


其 中 a, (A) 是 影响 矩阵 A(A) 对 角 线 上 的 第 大 个 元 素 。 将 式 (5.115) 代 和 人 式 (5.114) 中 并 解 
Fl (x, ) 的 方程 ， 可 得 








FH (x,) - BOn) zan 一 全 + (5.116) 
将 式 (5.116) 代 人 人 式 (5.113) 中 ， nen VoQA 
WN) =E > [4 Bee] (5.117) 


但 是 ， 对 于 不 同 的 大， OMEKA 这 说 明 不 同 的 数据 点 在 V,(X) 中 具有 不 同 的 作 
用 。 为 了 避免 通常 的 交叉 确认 的 这 一 特性 ，Craven and Wahba(1979) 通 过 坐标 旋转 0 引入 了 
广义 交叉 确认 (generalized cross-validation, GCV )。 特 别 地 ， 式 (5.117) 中 的 V(X) 改 变 为 


va) = $ Yo, [ B= 2]! (5.118) 
其 中 ， 权 系数 w 由 
1 — ag (À) 2 
wW, = Ta aa (5.119) 


定义 。 这 样 广义 交叉 确认 函数 VO) BIE A 





5 (5.120) 


最 后 ， 将 式 (5.100) 代 人 式 (5.120) ， 可 得 


ql = A@)y Il? 
Va) = 一 7 (5.121) 
[ytl - AGO]] 
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上 式 在 计算 上 仅 依 赖 于 和 数据 有 关 的 量 。 
广义 交叉 确认 函数 V( 和 ^) 的 最 优 性 


令 入 表示 广义 交叉 确认 函数 V(X) 期 望 值 的 最 小 化 函数 。 广 义 交 叉 确 认 的 期 望 无 效 度 可 定义 为 
E[RQ)] 


rs minE[ R(A) ] (5.122) 
其 中 R(X) 是 由 式 (5.99) 定 义 的 数据 集 的 均 方 误差 。 自 然 ，1" 的 渐进 值 满足 条 件 
lim1” = 1 (5.123) 


换 名 话说， 对 于 一 个 很 大 的 W， 使 V(X) 最 小 的 ， 同 时 也 使 R(X) 接 近 最 小 的 可 能 值 ， 这 使 
得 V(^) 成 为 一 个 很 好 的 估计 的 工具 。 


评论 小 结 


一 般 的 想法 是 选择 一 个 使 在 整个 数据 集 上 的 均 方差 R(M) 最 小 化 的 、 值 。 但 是 这 一 想法 
不 能 直接 实现 ， 因 为 R(X) 中 包含 有 未 知 的 回归 函数 f(x)。 因 此 ， 在 实际 中 我 们 就 要 分 两 种 
可 能 性 来 处 理 : 
。 如 果品 声 方差 @ 已 知 ， 我 们 就 选择 使 式 (5.110) 的 估计 外 ()) 最 小 化 的 作为 最 佳 值 ， 
这 里 所 谓 的 最 佳 是 指 它 也 使 R(N) 最 小 化 。 
。 如 果 呈 未 知 ， 我 们 可 以 选择 使 得 式 (5.121) 的 广义 交叉 确认 函数 Y(A) 最 小 化 的 入 作 
为 好 的 选择 ， 当 N-o 时 ， 这 个 入 可 以 使 期 望 均 方 误差 逼近 其 最 小 可 能 值 。 
值得 注意 的 是 ， 使 用 广义 交叉 确认 方法 估计 入 所 依赖 的 理论 是 渐 近 的 。 只 有 当 所 得 的 数据 集 
大 到 能 使 信号 和 噪声 相 分 离 的 程度 ， 这 种 方法 才能 希望 得 到 令 人 满意 的 结果 。 
在 实际 使 用 中 ， 广 义 交叉 确认 方法 对 于 非 齐 次 方差 和 非 Gauss 噪声 情况 ， 表 现 出 很 强 的 
鲁 棱 性 (Wahba,1990 )。 但 是 如 果品 声 过 程 是 高 度 相 关 的 ， 这 种 方法 往往 得 不 到 满意 的 正则 
化 参数 、 的 估计 。 
最 后 需要 说 明 的 是 广义 交叉 确认 函数 的 计算 问题 。 对 于 一 个 给 定 的 正则 化 参数 的 试验 值 
A, 求 式 (5.121) 中 分 母 [t[I- A(X)]J/NT 将 是 计算 V(^) 中 计算 量 最 大 的 部 分 。 在 Wahba et al. 
(1995) 中 描述 的 “随机 化 迹 方 法 ”可 以 用 于 计算 el AQ) I); 这 种 方法 可 用 于 超大 规模 的 系统 。 


5.10 RBF MHEAN 


B4 AET SERADA., SLERMREKU, CORBA AR KE 
近 特 性 。RBF 网 络 族 足 够 大 ， 它 可 以 在 一 个 紧 集 上 一 臻 逼近 任何 连续 函数 一 。 


通用 逼近 定理 
S C: R 一 民 是 一 个 可 积 的 有 界 连续 函数 ， 且 满足 
| COO dx #0 
DI, 表示 一 个 RBF 网 络 族 ， 它 由 函数 F: Rnm 一 民 组 成 ， 其 中 


F(x) = Z we(*=*) 
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上 式 中 o>0， 对 所 有 的 i=1, 2, +, mAwECRALCR%. KH, RTM AA RBF 
BiA HNE Fa x FGF (Park and Sandberg, 1991) : 

对 任何 输入 -输出 映射 函数 /(x)， 存 在 一 个 RBF MS, Apokea, DARE 
o>0, 使 得 由 该 RBF 网 络 实现 的 输入 输出 映射 函数 (x) 在 L,(pE[1,% |) ERK FET f(x)。 


注意 在 通用 逼近 定理 中 ， 并 不 要 求 核 C: 民 % 一 民 具 有 径 向 对 称 性 ， 因 此 该 定理 强 于 
RBF 网 络 的 必要 性 。 最 重要 的 是 该 定理 在 实际 应 用 中 为 使 用 径 向 基 函 数 设 计 神 经 网 络 提 供 了 
理论 基础 。 


维 数 灾 ( 再 讨论 ) 


除了 RBF 网 络 的 通用 至近 性 质 外 ， 我 们 还 必须 考虑 这 种 神经 网 络 所 能 达到 的 下 近 率 。 
在 第 4 章 的 讨论 中 ， 我 们 知道 一 类 逼近 函数 的 固有 复杂 度 与 比率 m/s 成 指数 增长 关系 ， 其 
中 mo 是 输入 维 数 ( 即 输入 空间 的 维 数 ) s 是 光滑 度 指数 (度量 加 在 特定 逼近 函数 类 中 的 逼近 
函数 上 的 约束 数目 )。Bellman 的 维 数 灾 理 论 告诉 我 们 ， 不 管 你 采用 什么 样 的 逼近 技术 ， 如 果 
光滑 度 指数 s 维持 常数 ， 则 达到 具有 某 一 规定 的 精确 度 的 逼近 函数 所 需 的 参数 数 与 输入 维 数 
mo 成 指数 增长 关系 。 要 想 达 到 某 一 与 输入 维 数 m 无 关 收 和 敛 率 ， 从 而 避免 维 数 灾 ， 人 惟一 的 
办 法 就 是 使 光滑 度 指数 * 与 逼近 函数 的 参数 数目 一 起 增长 使 其 弥补 复杂 度 的 增加 。 这 一 点 在 
# 5-3 说明， 摘自 Girosi and Anzellotti(1992)。 表 5-3 总 结 想 要 得 到 独立 于 输入 维 数 m 的 收 
敛 率 ， 用 多 层 感知 器 世 近 技术 及 RBF 网 络 副 近 技 术 时 ， 其 函数 空间 所 应 满足 的 约束 。 当 然 ， 
加 于 这 两 种 逼近 技术 的 约束 各 不 相同 ， 这 反映 它们 所 遵循 的 实现 公式 的 不 同 。 在 RBF 网 络 
情形 ， 结 果 在 Sobolev 函数 空间 ' 引 成 立 ， 其 中 的 函数 直到 2m > mo 阶 的 导数 是 可 积 的 。 换 句 
Wah, ESR IB pa SR] BRAY BS A Eom, 的 增加 而 增加 ， 以 使 收敛 率 与 mo 无 
关 。 如 第 4 章 中 的 解释 ， 多 层 感 知 器 模型 有 相似 的 约束 ,但 以 相当 隐 星 的 方式 。 从 表 5-3 得 
到 的 结论 可 陈述 如 下 : 

在 多 层 感知 器 和 RBF 网 络 中 可 实现 的 盟 近 浮 数 空间 中 ， 随 着 输入 维 数 mm 的 增加 ， 空 间 
的 约束 也 将 增加 。 
最 后 的 结果 是 无 论 使 用 多 层 感知 器 或 RBF 网 络 的 神经 网 络 技术 还 是 使 用 其 他 具有 类 似 特 性 
的 非 线性 技术 都 不 可 能 打破 维 数 灾 。 


R53 具有 相同 的 收敛 率 O(1/V mi ) 的 两 个 还 近 技术 和 它们 相应 的 函数 空间 ， 其 中 m, 为 隐藏 空间 的 大 小 








(a) 多 层 感 知 器 ; 
~ ~ ` = m, 
| sll F(s)ds < œ 其 中 天 (s) 为 逼近 函数 F(x) 的 L F(a) = Bagoas h) 
Fourier 变换 iTi 
其 中 (+) A sigmoid 激活 函数 . 
(b) RBF 网 络 : 
具有 直到 2m > mo 阶 可 积 导 数 的 函数 组 成 的 Sobolev 3 L) 


™ 
Ej F(x) = Sael _ ee) 
i=l 
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样本 复杂 性 、 计 算 复杂 性 及 泛 化 能 力 的 关系 


实际 上 我 们 所 拥有 的 数据 量 是 有 限 的 而 不 是 无 限 的 ; 在 讨论 中 如 果 不 考 虑 到 这 一 点 ， 那 
么 关于 逼近 问题 的 讨论 是 不 完全 的 。 同 样 地 ， 我 们 所 建立 的 神经 网 络 其 计算 复杂 性 也 是 有 限 
的 ， 而 不 是 无 限 的 。 所 以 ， 如 第 2 章 所 讨论 的 ， 对 于 在 一 个 有 限 的 已 知 样本 数据 上 训练 和 在 
以 前 未 遇 到 的 数据 上 测试 的 神经 网 络 ， 其 泛 化 误差 包括 两 部 分 。 一 部 分 称 为 逼近 误差 ,来 源 
于 神经 网 络 表示 一 个 目标 函数 的 能 力 是 有 限 的 。 另 一 部 分 我 们 称 之 为 估计 误差 ， 它 来 源 于 训 
练 样本 中 所 包含 的 目标 函数 的 信息 是 有 限 的 。 使 用 这 样 的 分 解 ，Niyogi and Girosi(1996) 推 导 
出 用 隐藏 层 大 小 及 训练 样本 大 小 表示 的 Gauss 型 RBF 网 络 的 泛 化 误差 的 界 。 他 们 推导 的 结果 
是 针对 用 式 (5.95) 所 描述 的 一 种 模型 学 习 一 个 属于 某 个 Sobolev 空间 的 回归 函数 的 情况 。 

这 个 界 使 用 第 2 章 描述 的 PAC 学 习 的 术语 可 叙述 如 下 (Niyogi and Girosi, 1996) : 

S 6 表示 具有 m 个 输入 ( 源 ) 节 点 和 m 个 隐藏 单元 的 一 类 Gauss 型 RBF 网 络 。 令 f(x) 
表示 属于 某 个 Sobolev 空间 的 回归 函数 。 假 设 训 练 样本 9 = | (x, d;)| 六 | 是 基于 f(x) 的 回归 模 
型 而 随机 抽取 得 到 的 。 那 么 ， 对 于 任 一 置信 参数 SE (0,1]， 由 网 络 产生 的 泛 化 误差 的 上 界 
为 








Mog mı 


o(z-)+ ol N log(mi N) + biog +) ) (5.124) 





的 概率 大 于 1 - 5。 

由 式 (5.124) 可 得 以 下 推论 : 

。 只 有 当 隐 藏 单 元 的 个 数 m 增长 的 速度 远 比 训练 样本 的 大 小 N 的 增长 速度 慢 时 ， 泛 
化 误差 才能 趋向 于 零 。 
对 于 给 定 的 训练 样本 数 N， 隐 藏 单元 的 最 佳 数 目 m 具有 如 下 性 质 (参见 习题 5.11) 

mi œ N’ (5.125) 
。 RBF 网 络 所 展现 的 收敛 率 0(1/m ) 与 Baron(1993) 导 出 的 以 sigmoid 函数 作为 激活 函 
数 的 多 层 感 知 器 的 收敛 率 是 类 似 的 ; 参看 4.12 节 的 讨论 。 


5.11 RBF 网 络 与 多 层 感知 器 的 比较 


径 向 基 函 数 (RBF) 网 络 与 多 层 感知 器 (MLP) 都 是 非 线性 的 层 状 前 馈 网 络 的 例子 。 它 们 都 
是 通用 逼近 器 。 所 以 ， 毫 不 奇怪 对 于 一 个 特定 的 MLP 总 存在 一 个 RBF 网 络 能 够 精确 的 模仿 
它 ， 反 之 亦 然 。 然 而 ， 这 两 种 网 络 在 几 个 重要 方面 有 存在 着 不 同 之 处 。 

1. 一 个 RBF 网 络 (在 其 最 基本 的 形式 中 ) 只 具有 一 个 隐藏 层 ， 而 一 个 MLP 却 可 以 有 一 个 
或 者 多 个 隐藏 层 。 

2. 典型 地 ,一 个 MLP 位 于 隐藏 层 或 输出 层 的 计算 结 点 ， 其 神经 元 模型 是 相同 的 。 而 
RBF 网 络 隐藏 层 中 计算 节点 与 网 络 输出 层 中 节点 是 相当 不 同 且 作 用 也 不 一 样 。 

3.RBF 网 络 的 隐藏 层 是 非 线 性 的 ， 而 输出 层 是 线性 的 。 但 是 MLP 作为 模式 分 类 器 ， 其 
隐 层 和 输出 层 都 是 非 线性 的 。 当 MLP 用 于 解决 非 线性 回归 问题 时 ， 线 性 输出 层 通常 是 好 的 
选择 。 

4.RBF 网 络 每 一 隐藏 单元 的 激活 函数 的 自 变量 都 要 计算 输入 向 量 和 该 单元 的 中 心 之 间 的 
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Euclid 范 数 (距离 )。 同 时 ，MLP 隐藏 单元 的 激活 函数 却 只 要 计算 输入 向 量 和 与 该 隐藏 单元 相 
关 的 权 值 向 量 的 内 积 。 

5.MLP 建立 一 个 输入 - 输出 映射 的 全 局 逼近 。 另 一 方面 ，RBF 网 络 却 是 以 指数 衰减 的 局 
部 非 线性 (如 Gauss 函数 ) 来 局 部 和 逼近 一 个 非 线性 输入 -输出 映射 。 
结果 这 意味 着 当 允 近 一 个 非 线性 的 输入 -输出 上 映射 时 ， 在 相同 的 精度 要 求 下 ，MIP 需要 的 参 
数 数 比 RBF 网 络 所 需要 的 参数 数 少 。 

RBF 网 络 输 出 单元 的 线性 特性 说 明 这 样 的 网 络 与 Rosenblatt 感知 器 的 联系 比 和 与 多 层 感 
知 器 的 联系 更 紧密 。 然 而 ，RBF 网 络 与 感知 器 是 不 同 的 ， 因 为 它 能 实现 对 输入 空间 进行 任意 
的 非 线性 变换 。 这 一 点 在 XOR 问题 上 已 经 说 明 得 很 清楚 ， 因 为 XOR 问题 不 能 用 任何 线性 感 
知 器 来 解决 ， 但 能 由 RBF 网 络 来 解决 。 


5.12 核 回 归 及 其 与 RBF 网 络 的 关系 


目前 为 止 给 出 的 RBF 网 络 的 理论 都 是 建立 在 插值 的 概念 上 的 。 在 这 一 节 中 ， 我 们 将 采 
用 另 一 种 观点 ， 即 建立 在 密度 估计 的 概念 之 上 的 核 回归 (kemel regression) 的 观点 。 

具体 地 ， 再 次 考虑 式 (5.95) 的 回归 模型 ， 为 了 方便 表达 将 其 重 写 在 下 面 : 

yi = f(x;) +ei， i = 1,2,°°°,N 
我 们 可 以 取 某 一 点 x 附近 的 观测 值 ( 即 模型 输出 y 的 值 ) 的 均值 作为 未 知 回归 函数 f(x) 的 合 
理 估 计 。 但 是 ， 为 了 达到 这 一 目标 ， 局 部 平均 必须 限制 在 x 的 一 个 较 小 的 邻 域内 ( 即 接受 
域 ) ， 因 为 一 般 情 况 下 ， 离 x 较 远 的 区 域 将 会 有 不 同 的 观察 值 。 进 一 步 ， 从 第 2 章 给 出 的 讨 
论 我 们 得 到 f(x) 等 于 给 定 x 条 件 下 y 的 条 件 均值 ( 即 在 x 上 y 的 回归 ) ， 表 示 为 
f(x) = Ely |x] 

利用 随机 变量 的 期 望 公式 ， 我 们 有 


f(x) = | fy (y | x) dy (5.126) 


其 中 feys) Æ Yx 为 条 件 的 条 件 概率 密度 函数 (probability density function, pdf ) 。 由 概率 
论 ， 我 们 有 


fx,r (X,Y) 
frl(y |x) = Fx) (5.127) 


上 式 中 Sx (x) È x 的 pdf, Fay (x, y) fz x 和 Y 的 联合 pdf。 因此 ， 将 式 (5.127) 代 入 式 

($.126) ， 我 们 得 到 回归 函数 的 下 列 公 式 ; 

F arad 
fx) = fx(x) 

我 们 感 兴趣 的 是 联合 概率 密度 函数 fx.y (x RAIL. BA TAY R A URES 
Mxis¥ thio 为 了 估计 fxy(x,Y) 以 及 扩 (x)， 可 以 应 用 一 个 非 参 数 估计 器 ， 通 称 为 Parzen- 
Rosenblatt 密度 估计 器 (Rosenblatt, 1956, 1970; Parzen, 1962 )。 形 成 该 估计 器 的 基础 是 核 ， 用 符 
号 K(x) 表 示 ， 它 具有 与 概率 密度 函数 相同 的 性 质 : 

。 核 K(x) 是 一 个 关于 的 连续 有 界 的 实 函 数 ， 它 关于 原点 对 称 ， 且 在 原点 取得 最 大 

值 。 


(5.128) 
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。 在 核 K(X) 的 曲面 下 的 总 体积 等 于 1; 即 对 于 一 个 严 维 的 向 量 和 有 
| KG)dx = 1 (5.129) 


假设 x ，x,，…，xw 是 独立 同 分 布 的 随机 向 量 ， 我 们 可 以 定义 fy (x) BY Parzen-Rosenblatt 密度 
估计 为 





人 1 x xX 一 Xi; m 
fx) = am DAK i x E R™ (5.130) 


其 中 光滑 度 参 数 疡 是 正 数 ， 称 为 带宽 或 简称 为 宽 ; hh 控制 着 核 的 宽度 。( 请 注意 不 要 将 这 里 
的 与 5.5 节 中 定义 Fréchet 导数 的 hh 相 混 清 。)Parzen-Rosenblatt 密度 估计 器 的 一 个 重要 性 质 
是 它 是 相 容 估计 器 !59( 即 渐进 无 偏 的 ) ， 意 味 着 如 果 选 择 疡 = h(N) 为 N 的 函数 使 得 
fim h(N) = 0 
那么 lim EL fx (x) ] = fx) 
为 了 上 式 成 立 ，x 必须 是 入 (x) 中 的 连续 点 。 
用 与 式 (5.130) 描 述 的 类 似 方 法 ,我 们 可 以 得 到 联合 概率 密度 薄 数 fx (x,y) AY Parzen- 
Rosenblatt 密度 估计 如 下 : 
Jary) = 部 Ai D(z) T) ER yER (5.131) 
对 六 ,y(x，Yy) 作 关于 y 的 积分 ， 可 得 式 (5.130) 的 入 (x)， 且 我 们 应 该 如 此 。 而 且 
om N oo 
| yx (X,Y) dy = T da(* i =) {7 yk( 7 i x) dy 
对 上 式 作 变量 代 换 ， 邻 z = (y -~ yh, 再 利用 核 K(: ) 的 对 称 性 可 得 
om a N _y. 
| rn = ape DK) 


因此 ， 将 式 (5.132) 和 (5.130) 分 别 作为 式 (5.128) 的 分 子 和 分 母 的 估计 ， 消 去 相同 项 后 ， 我 们 
可 得 回归 函数 /(x) 的 下 列 估计 : 











(5.132) 








kX) 
F(x) = f(x) = 4 
D (==) 
为 了 清晰 起 见 ， 上 式 中 我 们 将 分 母 中 的 求 和 下 标 i 换 为 j。 就 像 一 般 的 RBF 网 络 ， 由 式 
(5.133) 定 义 的 核 回归 估计 器 有 (x) 是 一 个 通用 逼近 器 。 


我 们 可 以 有 两 种 方式 来 分 析 逼 近 孙 数 F(x): 
1. Nadaraya- Watson 回归 估计 器 。 定 义 归 一 化 加 权 子 数 


(5.133) 





K X — X; 
Wy: (x) = A) i= 1,2,5, N (5.134) 
2 (57>) 
其 中 六 W(x) = 1, 对 所 有 的 x (5.135) 


我 们 可 将 式 (5.133) 所 示 的 核 回归 估计 简写 成 
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F(x) = Mm, (x) y; (5.136) 
CH F(x) 描 述 为 观察 值 y 的 加 权 均 值 。 式 (5. 136) 给 出 的 加 权 函 数 Wy; (x) 形 式 是 由 
Nadaraya(1964) 和 Watson(1964) 提 出 的 ， 所 以 式 (5.136) 所 示 的 通 近 函数 称 为 Nadaraya-Watson 
回归 估计 器 (Nadaraya-Watson regression estimator, NWRE)05 。 
2. 归 一 化 的 RBF 网 络 。 对 于 第 二 种 观点 ， 我 们 假设 核 K(x) 是 球 对 称 的 ， 这 样 我 们 就 可 
以 令 (Krzyzak et al. ,1996 ) 





X 一 Xx, | x- x; |l 
K( h = K( 7 ) 对 所 有 i (5.137) 
这 里 | | 表示 包含 向 量 的 欧 几 里 德 范 数 。 相 应 地 我 们 定义 归 一 化 径 向 基 函 数 为 
Il x - x; || 
K 
Wy(x,x,) = > | h i = 1,2, N (5.138) 





Ix - x, |] \’ 
D(A) 
其 中 ， 对 所 有 的 x 有 
Dv, (x,x,) = 1 (5.139) 


Yw(X,X;) 中 的 下 标 N 表示 使 用 Jaf (normalization) 
对 于 这 里 所 讨论 的 回归 问题 ， 我 们 可 以 看 出 应 用 于 基 函 数 We, (x, x, ) 的 “线性 权 值 ”w, ， 就 是 
回归 模型 中 对 应 于 x 的 观察 值 y,。 因 此 令 
Yi = W;, i = 1,2,°:-,N 
我 们 可 以 重新 将 式 (5.133) 所 示 的 逼近 函数 写成 一 般 形 式 


F(x) = X why (x, x;) (5.140) 


式 (5.140) 表 示 的 是 一 个 归 一 化 RBF 网 络 的 输入 - 输出 映射 (Moody and Darken, 1989; Xu et al , 
1994)。 注 意 ， 对 所 有 的 x 和 x, 
O< V,(x,x,) <1 (5.141) 
A, Wy (x,x,) RRA x, HARPER HIDA E x RSE 
A (5. 138) HVA — 1b 2 fi BE RA Wy (x, x, ) 与 一 般 径 向 基 函 数 的 不 同 之 处 在 于 Wy (x, x, ) 有 一 
个 组 成 归 一 化 因子 的 分 母 。 归 一 化 因子 是 关于 输入 向 量 x 的 固有 pdt. Buk, SERA x ER 
Wy (x, x, A 项 之 和 等 于 1， 即 式 (5.139)。 与 此 相对 ， 一 般 RBF 网 络 的 基 ( 格 林 ) 函数 
( 式 5.57) 却 不 一 定 满足 这 个 条 件 。 
这 里 关于 式 (5.138) 描 述 的 输入 -输出 映射 F(x) 的 推导 应 用 了 密度 估计 的 概念 。 与 超 曲 
面 的 重建 问题 相似 ， 密 度 估计 是 一 个 不 适 定 的 问题 。 为 了 使 其 适 定 ， 必须 应 用 正则 化 的 菜 种 
形式 。 我 们 可 以 在 正则 化 理论 (Vapnik,1982 ) 的 框架 下 推导 Parzen-Rosenblatt 密度 估计 器 ， 从 
而 推导 Nadaraya-Watson 回归 估计 器 。 当 然 ， 密 度 估计 中 的 代价 泛 函 与 式 (5. 23) 的 确定 性 
Tikhonov 泛 函 有 所 不 同 。 密 度 估计 中 的 代价 泛 函 包括 两 项 : 一 个 包含 未 知 概率 密度 函数 的 误 
差 平方 项 和 一 个 稳定 泛 函 的 适当 形式 。 
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多 元 Gauss 分 布 


一 般 说 来 可 以 选择 各 种 各 样 的 核 限 数 。 但 是 ,理论 和 实际 的 考虑 限制 了 我 们 的 选择 。 与 
格林 函数 一 样 ， 广 泛 地 使 用 多 元 Gauss 分 布 作为 核 函 数 : 


1 Ixl? 
K(x) = Da ep( 一 ix) (5.142) 


其 中 ，m 是 输入 向 量 x 的 维 数 。 很 明显 ， 式 ($.142) 所 示 的 核 K(x) 具 有 球 对 称 性 。 假 设 使 
用 相同 的 宽度 (扩展 )c，c 与 光滑 参数 h 对 每 一 个 Gauss 分 布 的 作用 相同 ， 且 以 x, 作为 核 函 
数 的 中 心 ， 我 们 可 写成 

xX — x, 1 lx- x | . 
h = agar | 20 ) ?了 


因此 ， 使 用 式 (5.143) ，Nadaraya-Watson 回归 估计 可 以 写成 (Specht，1991) 
Ix — x, |]? 
Br Se) 


Il x — x; ll? 
DJ exo 一 ee 
其 中 分 母 项 表示 Parzen-Rosenblatt 密度 估计 器 ， 由 w 个 以 数据 点 x ， Ht, xI 为 中 心 的 多 
元 Gauss 分 布 之 和 构成 。 
相应 地 ， 将 式 (5.143) 代 人 (5.138) 和 (5.140)， 可 以 得 到 归 一 化 RBF 网 络 的 输入 - 输出 
映射 函数 的 如 下 形式 : 





Kl( = 11,2 N (5.143) 





(5.144) 








(5.145) 





Sa JE l x = x; |? rj 


20° 

在 式 (5.144) 和 式 (5.145) 中 ， 归 一 化 径 向 基 函 数 的 中 心 与 输入 数据 点 fx, i, 一致。 与 一 
般 径 向 基 瑟 数 相同 ， 可 以 使 用 较 小 数量 的 归 一 化 径 向 基 函 数 ， 它 们 的 中 心 看 作 自由 参数 可 以 
根据 某 种 启发 式 方法 选择 ， 或 者 可 以 按 某 种 原则 确定 (Poggio and Girosi, 1990a)。 


5.13 学 习 策略 


如 果 不 考虑 其 理论 背景 ， 对 径 向 基 沙 数 (RBF) 网 络 采 取 的 学 习 过 程 可 作 如 下 分 析 。 与 网 
络 输出 单元 相连 的 线性 权 值 与 隐藏 单元 的 非 线性 激活 函数 相 比 是 在 一 种 不 同 的 “时 间 尺 度 ” 上 
更 新 的 。 因 此 ， 当 隐藏 层 的 激活 函数 根据 某 种 非 线 性 最 优 策 略 进行 缓慢 更 新 的 时 候 ， 输 出 权 
值 却 是 根据 线性 最 优 策略 进行 快速 调整 。 重 要 的 是 ， 在 RBF 网 络 中 ， 不 同 的 层 起 着 不 同 的 
作用 。 因 此 ， 对 于 隐藏 层 和 输出 层 采 用 不 同 的 最 优 策 略 是 合理 的 ， 也 许可 以 使 用 不 同 的 时 间 
尺度 来 实现 (Lowe,1991a) 。 

根据 网 络 径 向 基 函 数 中 心 的 确定 方法 不 同 ， 在 设计 RBF 网 络 上 有 不 同 的 学 习 策 略 。 这 
里 我 们 将 介绍 四 种 方法 。 前 三 种 设计 策略 是 建立 在 插值 理论 的 基础 之 上 的 。 最 后 一 种 设计 策 
略 将 结合 正则 化 理论 和 核 回 归 佑 计 理 论 的 理论 。 
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1. 随机 选取 固定 中 心 


最 简单 的 方法 是 假设 定义 隐藏 单 元 的 激活 函数 是 固定 径 向 基 消 数 。 中 心 的 位 置 可 以 用 随 
机 的 方式 从 训练 数据 集合 中 选取 。 如 果 训 练 数据 是 以 当前 问题 的 典型 方式 分 布 的 ， 则 该 方法 
可 以 被 认为 是 一 个 “明智 ”的 方法 (Lowe,1989 )。 对 于 径 向 基 函 数 本身 ， 我 们 可 以 用 一 个 各 向 
同性 的 Gauss 函数 ， 它 的 标准 偏差 是 根据 中 心 的 散布 而 固定 的 。 特 别 地 ， 一 个 以 上 为 中 心 的 
( 归 一 化 的 ) 径 向 基 函 数 定义 为 


ECx- t l?) = epf- lx- tl), 2m (5.146) 


其 中 m 是 中 心 的 数目 ，d 是 所 选中 心 之 间 的 最 大 距离 。 可 以 看 出 ， 所 有 Gauss 4h R% 
的 标准 偏差 ( 即 宽度 ) 都 固定 为 
o= = (5.147) 

上 式 保 证 每 一 个 径 向 基 函 数 都 不 会 太 尖 ， 也 不 会 太平 ; 这 两 种 极端 情况 都 应 该 尽量 避免 。 作 
为 (5.147) 的 另 一 种 选择 ， 我 们 也 可 以 在 数据 密度 较 低 的 区 域 上 使 用 个 别 放大 的 宽度 较 大 的 
中 心 ， 这 要 求 对 训练 数据 作 实 验 。 

在 这 种 方法 中 ， 惟 一 需要 学 习 的 参数 就 是 输出 层 上 的 线性 权 值 。 求 输出 权 值 的 一 个 直接 
的 方法 就 是 伪 逆 法 (Broomhead and Lowe, 1988 )。 特 别 地 ， 我 们 有 (也 可 参看 式 (5.77) 和 式 
(5.78)) 


w-Ga (5.148) 
其 中 d 是 训练 集合 中 的 期 望 响 应 向 量 。 和 矩阵 G 是 矩阵 GAX, TERR G 定义 为 
G= |g; | (5.149) 
其 中 
Bi = exp( - 2 | x; -t I2) oJ = 1,2,1, N;i = 1,2, ,mi (5.150) 


ERP x 是 训练 样本 中 第 7 个 输入 向 量 。 
求 一 个 矩阵 的 伪 逆 的 所 有 计算 的 基础 是 奇异 值 分 解 (SVD)(Golub and Van Loan, 1996) : 


如 果 G 是 一 个 NNx MERER, MAE X HE E 
U 三 {u | 


和 V= lv vs Vy} 
使 得 U7GV = diag(o, ,6) ,°*+,0,.),K = min( M,N) (5.151) 
其 中 0, BO), Seo, > 0 


FER UKIERA G 左 奇 异 向 量 ， EE VY 的 列 向 量 称 为 G FAH. 0, ,0,，… ,ok 称 为 
奇异 值 。 根 据 奇异 值 分 解 定理 ， 和 气 阵 G 的 M x 阶 伪 道 定义 为 


G = Vz" U’ (5.152) 
EF E 是 一 个 由 G 的 奇异 值 决定 的 Nx N 阶 和 矩阵 ， 
2 = diag( 二 ,二 00] (5.153) 
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计算 矩阵 伪 逆 矩阵 的 有 效 算法 在 Golub and Van Loan(1996) 中 有 详细 介绍 。 

有 趣 的 是 ， 根 据 应 用 随机 选取 中 心 方法 的 经 验 表 明 ， 这 种 方法 相对 来 说 对 正则 化 的 使 用 
不 太 敏 感 ; 参看 习题 5.14， 它 使 用 这 种 方法 在 计算 机 上 实现 模式 分 类 。 这 种 性 能 提示 ， 从 
一 个 固定 大 小 的 大 规模 训练 集合 中 随机 选取 中 心 的 RBF 网 络 设计 方法 ， 就 其 自身 而 言 也 许 
就 是 一 种 正则 化 的 方法 。 


2. 中 心 的 自 组 织 选择 


刚才 描述 的 固定 中 心 的 方法 主要 缺陷 是 为 了 达到 性 能 的 满意 水 平 需 要 一 个 巨大 的 训练 集 
合 。 克 服 这 一 限制 的 一 个 方法 就 是 使 用 一 种 混合 学 习 过 程 ， 包 括 下 面 两 个 不 同 的 阶段 (Moody 
and Darken, 1989; Lippmann, 1989b; Chen et al. , 1992): 

。 自 组 织 学 习 阶 段 ， 它 的 目的 是 为 隐藏 层 径 向 基 落 数 的 中 心 估计 一 个 合适 的 位 置 。 

。 监督 学 习 阶段 ， 它 通过 估计 输出 层 的 权 值 完成 神经 网 络 的 设计 。 

虽然 可 以 用 批 处 理 来 执行 上 述 两 种 学 习 阶 段 ， 但 是 用 自 适 应 (和 迭代 ) 的 方法 更 理想 。 

对 于 自 组 织 学 习 过 程 ， 我 们 需要 一 个 率 类 的 算法 将 所 给 的 数据 点 剖 分 成 几 个 不 同 的 部 
分 ,每 一 部 分 中 的 数据 都 尽量 有 相同 的 性 质 。 一 种 这 样 的 算法 为 -均值 聚 类 算法 (Duda and 
Hart,1973)， 它 将 径 向 基 函 数 的 中 心 放 在 输入 空间 &% 中 重要 数据 点 所 在 的 区 域 上 。 令 m 表示 
径 向 基 函 数 数目 ; m 要 依靠 试验 来 决定 取 何 种 适合 值 。 令 1t (na) RE ERED 
n KRR Pb. WA, 上 -均值 聚 类 算法 进行 如 下 : 

1. 初始 化 。 选 择 随机 值 作为 中 心 t; (0) 的 初始 值 ; 惟一 限制 是 要 求 每 一 个 中 心 的 初 值 不 
同 。 将 中 心 的 欧 几 里 德 范 数 保持 为 较 小 的 值 可 能 会 更 理想 一 些 。 

2. 抽取 祥 本 。 在 输入 空间 多 中 以 菜 种 概率 抽取 样本 向 量 x， 作 为 第 n 次 和 迭代 的 输入 向 
量 。 

3. 相似 匹配 。 令 k(x) 表示 输入 向 量 x 的 最 佳 匹 配 (竞争 获胜 ) 中 心 的 下 标 值 。 第 n KE 
代 时 按 欧 几 里 德 最 小 距离 准则 确定 (x) 的 值 : 

k(x) = arg min || x(n) -~t,(n) || ,& = 1,2,°°,m, (5.154) 
其 中 ti (DRRR k MERE RACER n BERN BD 

4. E. FRA E i EHH: 

(n+) = {fein # tan) = G60) k = k(x) 


t,(n), 其 他 情况 

其 中 是 学 习 率 ， 且 0<m< 1。 

5. 继续 。 将 n 的 值 加 1， 回 到 第 2 步 , 重复 上 述 过 程 ， 直 到 中 心 t, 的 改变 量 很 小 时 为 
tk. 

这 里 所 说 的 大- 均值 聚 类 算法 实际 上 是 竞争 ( 胜 者 全 得 ) 学 习 过 程 的 一 种 特殊 情况 ， 它 通 
称 为 自 组 织 映 射 ， 我 们 将 在 第 9 章 中 详细 讨论 。 后 一 算法 也 适 于 实现 自 组 织 学 习 阶 段 。 

一 均 值 聚 类 算法 的 一 个 局 限 在 于 它 只 能 达到 依赖 于 所 选中 心 初 值 的 局 部 最 优 解 。 因 
此 ,计算 资源 就 有 可 能 浪费 ， 因 为 一 些 中 心 的 初 值 可 能 位 于 输入 空间 中 稀少 数据 点 的 区 域 ， 
因此 它们 没有 机 会 移 到 它们 所 需 的 新 位 置 去 。 最 终 的 结果 可 能 就 会 是 不 必要 的 大 网 络 。 为 了 
克服 传统 的 大- 均值 聚 类 算法 的 局 限 ，Chen(1995) 提 出 了 使 用 一 种 增强 上 - 均值 聚 类 算法 ， 


(5.155) 
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该 算法 归功 于 Chinrunrueng and Séquin(1994)， 它 建立 在 变 差 加 权 度 量 的 聚 类 基础 上 ， 可 以 使 
算法 收敛 于 一 个 最 优 结果 或 者 近似 最 优 结果 ， 而 与 中 心 的 初始 位 置 无 关 。 

EAM k- 均值 聚 类 算法 或 者 它 的 增强 形式 得 到 每 一 个 Gauss 型 径 向 基 函 数 的 中 心 及 其 
宽度 后 ， 混 合 学 习 过 程 余下 的 最 后 一 步 是 估计 输出 层 的 权 值 。 一 个 最 简单 的 估计 方法 就 是 在 
第 3 章 中 介绍 过 的 最 小 均 方 (LMS) 算 法 。 隐 藏 单元 产生 的 输出 信号 向 量 构成 LMS 算法 的 输入 
向 量 。 注 意 ， 应 用 于 隐藏 单元 的 上 - SEA RAAN ith ECD LMS 算法 可 以 用 并 行 
的 方式 分 别 进行 各 自 的 计算 ， 从 而 加 快 训练 过 程 。 


3. 中 心 的 监督 选择 


在 第 3 种 方法 中 ， 径 向 基 范 数 的 中 心 以 及 网 络 的 所 有 其 他 自由 参数 都 将 经 历 一 个 监督 学 
习 的 过 程 。 换 句 话 说 ，RBF 网 络 将 采取 其 最 一 般 的 方式 。 这 个 方法 的 自然 后 选 是 采用 误差 修 
正 学 习 过 程 ， 这 种 方法 可 以 很 方 使 地 采用 梯度 下 降 法 ， 它 代表 LMS 算法 的 一 种 推广 。 

建立 这 种 学 习 过 程 的 第 一 步 是 定义 代价 函数 的 瞬时 值 


- 4 De (5.156) 
其 中 N 是 用 于 学 习 的 训练 样本 数目 ，e 是 误差 zE, 定义 如 下 : 
e = d - F* (x) = d; - cl IIx; -t le) (5.157) 


目标 是 找到 使 最 小 的 自由 参数 w, t MX 的 值 (后 者 和 范 数 加 权 和 矩阵 C, 有 关 )。 最 小 化 
的 结果 列 于 表 5-4 中 ， 这 些 结果 的 推导 将 在 习题 5.13 中 作为 练习 留 给 读者 。 表 5-4 中 有 几 
点 值得 注意 : 


表 5-4 ”线性 权 值 的 自 适应 公式 和 RBF 网 络 中 心 的 位 置 和 散布 
1. 线性 权 值 (输出 层 ) 





N 
Fee = Sela) Cx; = tC) a) 
jai 
w(n+1) = wln)- rete = 1,2,7, mi 


2 中 心 位 置 (隐藏 层 ) 
ER = 2w;(n) OOIE -t;(n)l e Er Oxy -ti(n)] 





ti(n+1) = t(n) -m TR, i = 1,2,7, m 


3. 中 心 扩 展 ( 降 藏 层 ) 

IEln) u J | 

IE (n) =- w;(n) ane ( | Xj 一 t;(n) I Ci Qi (n) 
Qi Cn) = [x, 一 t;(n) Lx; 一 t;(n)]” 


IEln) 
IE; (n) 


* 项。(n) 是 输出 单元 j 在 时 刻 n 时 的 误差 信号。 项 (OE Green 函数 GCC ) 关 于 它 的 自 变 量 的 一 阶 导数 。 
。 代价 函数 8 对 于 线性 权 值 w 来 说 是 凸 的 ， 但 是 对 于 中 心 上 和 矩阵 D 来 说 却 是 非 凸 
的 ; 在 后 一 种 情况 下 ，t; AES! 的 取 值 可 能 会 陷 人 参数 空间 的 上 的 一 个 局 部 最 小 值 


E; (n +1) = X(n) - 95 
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处 。 

。 参数 由, t AE HAMAR PHS SALA a. WAH o 

。 与 反 向 传播 算法 不 同 ， 表 5-4 所 列 的 RBF 网 络 的 梯度 下 降 法 中 没有 误差 反 向 传播 。 

。 梯度 向 量 28/at 的 效果 和 育 类 效果 类 似 ， 是 依赖 于 任务 的 (Poggio and Girosi,1990a ) 。 

在 梯度 下 降 法 的 初始 化 过 程 中 ,通常 都 希望 由 参数 空间 的 一 个 结构 化 初始 条 件 开始 ， 这 
一 条 件 限制 搜索 的 参数 空间 区 域 使 我 们 在 已 知 的 有 用 区 域 中 搜索 ， 这 可 以 通过 标准 的 模式 分 
类 法 来 实现 (Lowe,1991a )。 应 用 这 一 方法 ， 收 敛 到 权 值 空间 非 期 望 的 局 部 最 小 值 的 可 能 性 将 
减少 。 例 如 ， 我 们 可 以 从 一 个 Gauss 分 类 器 开始 ， 该 分 类 器 假设 每 一 类 中 的 每 一 个 模式 都 是 
从 Gauss 分 布 中 抽取 的 ; 基于 Bayes 假设 检验 过 程 的 模式 分 类 器 的 这 种 特殊 形式 在 第 3 章 中 
已 经 讨论 过 了 。 

在 讨论 的 这 个 阶段 出 现 的 问题 是 : 自 适应 选取 径 向 基 函 数 的 中 心 的 位 置 能 得 到 什么 好 
处 ? 这 个 问题 的 答案 当然 依赖 于 实际 应 用 。 虽 然 如 此 ， 根 据 一 些 文献 报告 的 结果 ， 人 允许 中 心 
移动 确实 能 得 到 一 些 实际 的 好 处 。Lowe(1989) 将 RBF 网 络 应 用 于 语音 识别 的 工作 结果 表明 ， 
如 果 要 求 最 小 的 网 络 配置 的 话 ， 用 非 线性 参数 优化 的 方法 是 有 利 的 。 但 是 ， 据 Lowe 所 言 ， 
用 一 个 更 大 的 RBF 网 络 可 以 达到 同样 的 泛 化 效果 ， 这 里 所 谓 更 大 的 神经 网 络 就 是 隐藏 层 具 
有 更 多 固定 中 心 和 仅 用 线性 优化 的 方法 来 调整 输出 层 的 网 络 。 

Wettschereck 和 Dietterich(1992) 曾 经 对 应 用 固定 中 心 的 (Gauss 型 ) 径 向 基 函 数 网 络 和 应 用 
可 调 中 心 的 广义 径 向 基 函 数 网 络 的 性 能 作 过 比较 ; 在 后 一 种 情况 中 心 位 置 是 由 监督 学 习 确 定 
的 。 性 能 比较 是 对 NETialk 任务 进行 的 。 最 早 的 NETtalk 试验 是 由 Sejnowski 和 Rosenberg 
(1987) 使 用 多 层 感 知 器 进行 的 ， 训 练 所 用 的 算法 是 反 向 传播 算法 ; 这 将 在 第 13 章 中 介绍 。 
Wettschereck 和 Dietterich 的 试验 目的 是 为 了 了 解 神经 网 络 是 如 何 将 英语 拼写 映射 为 语音 的 发 
音 。Wettschereck 和 Dietterich 在 NETtalk 上 所 作 的 试验 研究 可 以 小 结 如 下 : 

。 RBF 网 络 (对 中 心 位 置 采 用 无 监督 学 习 ， 对 输出 权 值 向 量 采用 监督 学 习 ) 不 如 多 层 感 

知 器 模型 (采用 反 向 传播 算法 ) 推 广 得 好 。 
。 广义 RBF 网 络 (中 心 位 置 与 输出 权 值 均 采用 监督 学 习 ) 的 泛 化 能 力 可 以 明显 好 于 多 层 


4. 正则 化 严格 插值 法 


结合 第 5.5 节 的 正则 化 理论 和 第 5.12 节 的 核 回归 估计 理论 的 基本 原理 的 RBF 网 络 设计 
的 方法 在 Yee(1998) 描 述 。 该 方法 包括 组 合 利 用 以 下 四 个 组 成 部 分 : 

1. FERR G， 可 作为 (可 能 带 有 某 种 缩放 ) 一 致 ( 均 方 ) Nadaraya-Watson 回归 估计 
(NWRE) 的 核 。 

2. 对 角 输 入 范 数 加 权 和 矩阵 E, RA 

X = diag(h, shasta ha, ) | (5.158) 

的 所 有 中 心 是 共同 的 ， 其 中 M, hay, hn 是 具有 (缩放 后 ) 核 6 的 一 致 NWRE 的 每 个 维 的 
带宽 ， 如 同 以 前 设置 的 一 样 ， 而 m 是 输入 空间 的 维 数 。 例 如 ， 我 们 可 以 设 h sa, i=1, 
2，…，mo， 式 中 o 表示 第 i 个 输入 变量 的 样本 方差 ， 它 是 从 已 知 的 训练 输入 数据 中 估计 而 
来 的 。 正 的 输入 缩放 因子 wm ,o ,…， am 可 以 通过 适当 的 交叉 确认 (cross-validation , CV) 过 
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程 确定 ， 如 在 5.9 节 解 释 的 一 样 。 
3. 正则 化 严格 插值 ， 它 涉及 根据 式 (5.54) 训 练 线性 权 值 。 
4. 通过 渐 近 优化 的 方法 ， 例 如 式 (5.117) 所 示 的 交替 留 一 法 或 者 式 (5.121) 所 示 的 GCV 
法 ， 选 择 正则 化 参数 和 及 缩放 因子 a ，w% ，… ，am。 选 择 的 参数 可 说 明 如 下 : 
。 选择 的 入 越 大 ， 则 噪音 对 参数 测量 的 干扰 就 越 大 。 
。 当 径 向 基 函 数 是 一 个 单 峰值 的 核 函 数 (例如 Gauss KARO, FRE w 的 值 越 小 ， 
则 整个 网 络 的 输出 对 相应 的 输入 维 越 敏 感 。 相 反 ， 若 某 个 a, 越 大 ， 则 整个 网 络 输出 
对 该 输入 维 的 变化 就 越 迟 印 。 因 此 ， 我 们 可 以 通过 a 的 选取 来 标明 每 一 个 输入 变量 
的 重要 程度 ， 从 而 在 需要 降低 维 数 ， 可 以 将 无 关 紧 要 的 输入 维 删 去 。 
上 述 设计 过 程 的 合理 性 在 Yee(1998) 中 有 详细 的 讨论 。 我 们 选择 这 种 设计 方法 的 目的 可 
以 解释 如 下 。 可 以 证 明 NWRE 与 一 种 特殊 类 别 的 正则 化 RBF 网 络 相对 应 ， 也 就 是 说 ， 对 于 
任意 的 NWRE， 我 们 都 可 以 构造 一 个 适当 的 正则 化 RBF 网 络 序列 ， 当 其 正则 化 参数 序列 |Av| 
随 着 (训练 样本 的 大 小 ) 趋 向 于 无 穷 而 (以 某 种 恰当 的 速率 ) 趋 向 于 无 穷 时 ，RBF 网 络 与 
NWRE 之 间 的 均 方差 和 绝对 误差 都 趋向 于 零 。 这 样 我 们 就 可 以 用 构造 的 RBF 网 络 来 逼近 任 
意 的 NWRE。 在 另 一 方面 ， 当 Wo ，( 在 某 种 温和 的 条 件 下 ) 由 式 (5.99) 所 定义 的 风险 趋向 
于 (全 局 ) 均 方 误差 。 如 果 我 们 用 渐 近 最 优 参数 的 方法 来 选取 正则 化 参数 序列 ， 那 么 ， 通 过 构 
造 ， 这 样 得 到 的 RBF 网 络 结果 序 列 一 定 具 有 ( 渐 近 ) 最 小 均 方差 的 RBF 网 络 ， 这 里 最 小 是 相 
对 于 所 有 可 能 的 正则 化 参数 序列 的 选择 ， 其 中 包括 与 NWRE 相对 应 的 那个 选择 。 如 果 已 知 
NWRE 均 方 误差 相 容 的 条 件 成 立 ， 则 根据 同样 过 程 设计 的 RBF 网 络 也 是 均 方差 相 容 的 。 换 
名 话说 ， 用 上 述 方 法 得 到 的 RBF 网 络 继承 了 NWRE 的 相 容 性 。 由 这 一 结论 ， 我 们 可 以 将 
NWRE 的 相 容 性 结果 应 用 于 诸如 时 间 序 列 回 归 等 的 研究 中 ， 在 这 一 类 研究 中 ， 相 关 和 非 稳 态 
的 情况 经 常 遇见 ， 而 假设 具有 独立 同 分 布 的 训练 数据 和 稳 态 过 程 的 一 般 的 神经 网 络 对 这 类 问 
题 是 无 效 的 。 总 而 言 之 ， 通 过 组 合 正 则 化 理论 和 核 回 归 估计 理论 的 基本 原理 ， 这 里 列 出 的 设 
计 过 程 提供 了 用 于 正则 化 RBF 网 络 设 计 和 应 用 的 实际 规定 的 理论 支持 。 


5.14 计算 机 实验 : 模式 分 类 


在 这 一 节 中 ， 我 们 将 通过 计算 机 实验 来 阐明 基于 使 用 严格 插值 法 的 正则 化 RBF 网 络 的 
设计 。 这 个 计算 机 实验 是 一 个 二 值 分 类 问题 ， 其 中 的 数据 是 从 与 类 %, 和 类 %, 相对 应 的 两 个 
等 概率 的 交叉 二 维 Gauss 分 布 中 抽取 的 。 有 关 Gauss 分 布 的 详细 内 容 与 4.8 节 中 所 述 的 一 样 。 
KC, 的 均值 向 量 为 [0,0]”， 公 共 方 差 为 1; 类 %, 的 均值 向 量 为 [0,2]”， 公 共 方 差 为 4。 这 
一 节 描 述 的 计算 机 实验 可 以 看 作 正 则 化 RBF 网 络 和 第 4.8 节 的 反 向 传播 学 习 实 验 的 对 应 部 
分 。 

因为 有 两 个 类 %, Me, EEE RBF 网 络 具 有 两 个 输出 单元 ， 每 个 对 应 一 类 。 同 样 ， 
二 值 类 指示 器 输出 用 作 期 望 输出 值 ， 表 示 为 

do = | 如 果 p FRE, 
0 ”其 他 情况 
Hp k=1, 2 
在 进行 实验 之 前 ， 我 们 必须 解决 确定 实现 模式 分 类 的 输出 规则 。 在 Yee( 1998) F WE BA IE 
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则 化 RBF 网 络 分 类 器 的 输出 提供 一 个 后 验 类 概率 估计 。 这 个 结论 只 有 在 利用 期 望 输出 的 
二 值 类 指示 器 向 量 类 型 训练 网 络 时 才 成 立 。 我 们 现在 将 式 (4.55) 作 为 这 类 网 络 的 决策 规 
Ju: 

选择 对 应 于 最 大 输出 函数 的 类 。 

中 心 选 择 的 严格 播 值 法 用 不 同 正 则 化 参数 和 的 值 进行 测试 。 对 一 个 指定 的 入 由 式 
(5.54) 我 们 就 可 以 算出 RBF 网 络 输出 层 的 权 值 ， 表 示 为 

w= (G+.dD"'d 
其 中 G 是 一 个 Nx N 阶 的 Green 矩阵 ， 它 的 第 所 个 元 素 是 径 向 对 称 的 Green 函数 G(x, ,zx )， 
N 是 样本 的 大 小 ，d 是 期 望 响应 向 量 。 

对 每 一 个 正则 化 参数 和 ， 总 体 由 50 个 独立 的 网 络 构成 ， 每 一 个 网 络 都 用 具有 1000 个 模 
式 的 相同 的 参考 集 进行 测试 。 

表 5-5 给 出 当 有 m = 20 个 中 心 时 正确 分 类 概率 的 总 体 统计 (ensemble statistic)。 总 体 
统计 根据 不 同 的 入 值 进行 计算 。 表 5-6 给 出 的 是 具有 m = 100 个 中 心 的 RBF 网 络 的 相应 结 
果 。 

表 5-5 隐藏 层 中 心 大 小 m =20， 各 种 正则 化 参数 详细 的 正确 分 类 概率 








正则 化 参数 ，、 
总 体 统计 0 0.1 1 10 100 1000 
均值 57.49 72.42 74.42 73.80 72.46 72.14 
标准 偏差 7.47 4.11 3.51 4.17 4.98 5.09 
最 小 44.20 61.60 65.80 63.10 60.90 60.50 
最 大 72.70 78.30 78.90 79.20 79.40 79.40 


表 5-6 隐 层 中 心 大 小 m = 100， 各 种 正则 化 参数 详细 的 正确 分 类 概率 
ESX, à 











总 体 统计 0 0.1 1 10 100 1000 
均值 50.58 77.03 77.72 77.87 76.47 75.33 
标准 偏差 4.70 1.45 0.94 0.91 1.62 2.25 
最 小 41.00 70.60 75.10 75.10 72.10 70.10 
最 大 61.30 79.20 79.80 79.40 78.70 78.20 


图 5-7 显示 的 是 当 正则 化 参数 入 = 10 时 由 网 络 输出 所 形成 的 决策 边界 ， 此 时 有 最 优 的 统 
计 结 果 。 图 5-7 的 两 部 分 分 别 对 应 于 总 体 中 测试 表现 最 好 的 和 最 差 的 网 络 ; 图 的 两 部 分 对 应 
的 都 是 100 个 中 心 的 情况 。 

比较 表 5-5 和 5-6 我 们 可 以 发 现 : 

1. Xf m=20 个 和 m=100 个 中 心 ， 当 和 =0 时 ， 网 络 的 分 类 能 力 都 较 差 。 

2. 正则 化 方法 的 使 用 对 RBF 网 络 的 分 类 能 力 有 着 明显 的 影响 。 

3. 当 和 >0.1 时， 网 络 的 分 类 性 能 随 着 A 的 增加 变化 不 大 。 在 中 心 为 20 个 的 情况 下 ， 当 
A= 1 时 分 类 性 能 最 佳 ; 在 中 心 为 100 个 的 情况 下 ， 当 X= 10 时 分 类 性 能 最 佳 。 

4. 当中 心 数 由 20 增加 至 100 时 ， 网 络 的 分 类 性 能 增加 了 约 4.5% 。 
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图 5-7 基于 严格 插值 法 的 正则 化 RBF 网 络 模式 分 类 的 试验 结果 
DRRR 上 ) 最 差 解 
虚线 (实心 ) 圆 表示 最 优 Bayes 解 


5.15 小 结 和 讨论 


RBF 网 络 的 结构 是 不 常见 的 ， 因 为 隐藏 单元 的 结构 与 输出 单元 的 结构 是 完全 不 同 的 。 由 
于 径 向 基 函 数 是 隐藏 单元 设计 的 基础 ， 所 以 RBF 网 络 的 理论 与 径 向 基 范 数理 论 有 着 密切 的 
联系 ， 径 向 基态 数理 论 是 数值 分 析 中 的 一 个 主要 研究 领域 (Singh,1992)。 另 外 值得 注意 的 是 
由 于 输出 层 的 线性 权 值 是 可 调 参 数 ， 通 过 对 线性 自 适应 滤波 器 的 有 关 文 献 的 研究 ， 我 们 可 以 
得 到 更 多 结果 。 

与 采用 反 向 传播 算法 的 多 层 感知 器 不 同 ，RBF 网 络 设计 采用 原理 化 的 方法 。 特 别 是 5.5 
节 介绍 的 Tikhonov 正则 化 理论 为 RBF 网 络 的 形成 提供 坚实 的 数学 基础 。 在 这 个 理论 中 Green 
函数 C(x,E) 起 着 关键 作用 。 作 为 网 络 基 函 数 的 Green 函数 形式 是 由 正则 化 理论 应 用 中 的 光 
滑 度 约束 所 决定 的 。 由 式 (5.63) 所 示 的 微分 算 子 D 指定 的 光滑 度 约束 将 导出 多 元 Gauss 函数 
作为 Green 函数 。 微 分 算 子 D 不 同 ， 自 然 Green 函数 的 形式 也 不 同 。 记 住 ， 当 放宽 要 求 基 范 
数 比 数据 点 少时 ， 减 少 计算 复杂 性 就 成 为 确定 光滑 正则 化 网 络 的 一 个 重要 因素 。 这 可 能 是 在 
正则 化 RBF 网 络 设计 中 使 用 其 他 函数 (如 习题 5.1 所 描述 的 薄板 样 条 函数 ) 作 为 基 函 数 的 一 个 
原因 。 无 论 选 择 什么 样 的 函数 作为 天 函数 ， 为 了 将 正则 化 理论 的 优点 完全 应 用 于 RBF 网 络 
的 设计 中 ， 我 们 都 需要 一 个 原理 化 的 方法 来 估计 正则 化 参数 ào 5.9 节 所 介绍 的 广义 交叉 确 
认 满 足 了 这 个 需要 。 使 用 广义 交叉 确认 的 理论 基础 是 渐 近 的 ， 这 就 要 求 有 一 个 足够 大 的 训练 
集合 ， 才 能 得 到 理想 的 和 的 估计 值 。 

另 一 个 设计 RBF 网 络 的 原理 化 方法 是 通过 核 回归 来 实现 的 。 该 方法 使 用 密度 估计 ,对 
于 密度 估计 ， 径 向 基 函 数 之 和 等 于 1。 多 元 Gauss 分 布 提供 满足 这 一 要 求 的 便利 方法 。 

总 之 ，Gauss 型 RBF 网 络 所 实现 的 输入 -输出 映射 与 混合 专家 系统 所 实现 的 输入 - 输出 
映射 很 相似 。 后 一 模型 将 在 第 7 章 中 介绍 。 
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注释 和 参考 文献 


[1] 


[2] 


[5] 


[7] 


径 向 基 函 数 首先 是 在 解决 实 多 变量 插值 问题 时 提出 的 。 这 方面 的 早期 工作 在 Powell 
(1985) 中 有 所 论述 。 现 在 径 向 基 函 数 是 数值 分 析 研 究 中 的 一 个 主要 方向 。 
Broomhead and Lowe(1988) 首先 将 径 向 基 函 数 应 用 于 神经 网 络 设 计 。Poggio and Girosi 
(1990a) 在 径 向 基 轴 数 网 络 的 理论 与 设计 中 也 作出 了 重大 贡献 。 后 一 篇 论文 强调 将 正则 
化 理论 应 用 于 这 类 神经 网 络 ， 以 提高 对 新 数据 的 泛 化 能 力 。 
Cover 定理 的 证 明 遵 循 如 下 考虑 (Cover,1965): 
。 Schlafli 定理 或 函数 计数 定理 : 对 mi 维 欧 几 里 德 空间 上 的 N 个 处 于 一 般 位 置 的 向 量 
进行 二 分 ， 可 得 到 的 齐 次 线性 可 分 的 二 分 方式 的 数目 等 于 
IN-1 

C(N,m,) = 2 > | ) 
如 果 每 一 个 含有 m 个 或 小 于 m 个 的 向 量子 集 都 是 线性 独立 的 ， 就 说 m Æ Euclid 空 
间 上 的 集合 % = |x} AF 
。 & 的 联合 概率 分 布 的 反射 不 变性 : 一 个 随机 二 分 是 可 分 的 概率 (在 久 的 条 件 下 ) 等 于 

多 的 一 个 特定 二 分 (所 有 的 NN 个 向 量 都 属于 一 类 ) 的 非 条 件 概率 。 

函数 计数 定理 由 Camer on (1960) 、Joseph(1960) 和 Winder(1961) 以 不 同 的 形式 独立 证 明 ， 
并 应 用 于 特定 的 感知 器 配置 ( 即 线性 立 值 单元 )。 在 Cover(1968) 中 这 个 定理 还 被 用 于 根 
据 所 有 可 调 参数 的 总 数 估计 感知 器 网 络 的 能 力 ， 它 的 下 界 是 N/(1+ log N), 其 中 入 是 
输入 模式 的 数量 。 
先 验 知识 其 入 输入 - 输出 映射 的 另 一 种 正则 化 方法 是 通过 使 用 Bayes 插值 理论 ; 详细 
了 解 这 方面 的 资料 请 参看 文献 MacKay(1992a,b) 和 Neal(1995)。 
正则 化 理论 的 创立 主要 归功 于 Tikhonov(1963)。Phillips(1962) 也 曾经 阐述 过 相似 的 理 
论 。 因 此 有 时 我 们 也 称 这 一 理论 为 Tikhonov-Phillips 正则 化 。 
在 保险 统计 文献 中 一 种 正则 化 形式 曾经 在 Whittaker(1923) 讨 论 过 ， 在 那里 考虑 的 光滑 
过 程 被 称 为 校准 (graduation) 或 者 调整 (adjustment)。 
以 书 的 形式 讨论 正则 化 理论 ， 可 以 参考 Tikhonov and Arsenin (1977), Mozorov(1993) 及 
Kirch( 1996). 
函数 空间 的 概念 是 Hilbert 在 对 一 类 积分 方程 所 做 的 基本 研究 的 结果 中 提出 的 。 当 
Fredholm 积分 的 创始 人 Fredholm 用 本 质 为 代数 的 语言 提出 问题 时 ，Hilbert 意识 到 这 个 问 
题 与 多 维 欧 几 里 德 空 间 上 的 二 阶 曲 面 的 解析 几何 理论 有 着 紧密 的 联系 (Lanczos，1964) 。 
赋 范 空间 是 一 个 定义 了 实 值 函数 ‖ x | 的 线性 向 量 空间 ， 该 实 值 函 数 称 为 x 的 范 数 。 范 
3 || x || 具有 如 下 性 质 : 


m. 


Ixi > 0(x 40), ll Ol] =0 
axl =tal-> ixl (a = #¥%)Ix+yll < Ixll + lyll 
Wh || x || 的 意义 是 向 量 x 的 长 度 。 
严格 说 来 ， 我 们 要 求 负责 产生 数据 的 函数 f(x) 属 于 具有 Dirac delta 广义 函数 6 再生 核 
形式 的 再 生 核 Hilbert 空间 (reproducing kemel Hilbert space, RKHS) (Tapia and Thompson, 
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1978)。 这 样 做 是 因为 我 们 要 求 Dirac delta 广义 函数 8 为 递减 的 、 无 限 连续 可 微 的 函数 ， 
即 广义 函数 Schwarz 理论 的 经 典 测试 函数 空间 9 具有 有 限 的 D - 诱导 范 数 ， 表 示 为 

H, = if€ F: DAl < œ} 
一 般 说 来 ， 当 提 到 Hilbert 空间 时 ， 工 程 师 们 总 是 只 想到 L, 空间 ， 可 能 因为 L, 空间 与 
任何 Hilbert 空间 同 构 。 但 是 范 数 才 是 Hilbert 空间 最 重要 的 特性 ， 且 等 距 同 构 ( 保 范 意 
义 下 的 同 构 ) 要 比 简单 的 加 性 同 构 重 要 得 多 (Kailath, 1974)。RKHS 理论 说 明 除 了 L 空 
间 外 ， 还 有 许多 其 他 不 同 但 是 很 有 用 的 Hilbert 空间 。 关 于 RKHS 的 指导 性 综述 ， 参 看 


Kailath(1971) 。 
[8] 内 积 空间 是 一 个 线性 向 量 空间 ， 空 间 中 的 向 量 au 和 v 的 内 积 用 (u,v) 表 示 ， 满 足 如 下 性 
质 : 


(u,v) = (v,u),(au,v) = a(u,v) ,(a = 常数 )， 

(u+ v,w) = (u,w) + (v,w),(u,u) > O(u < 0) 
MRT A B28 AAPEA Cauchy 序列 都 按 范 数 收敛 于 % 中 的 一 个 点 ， 就 说 该 内 
积 空间 是 完备 的 ， 并 且 称 其 为 Hilbert 空间 。 向 量 序列 |x, | 为 Cauchy 序列 是 指 如 果 对 于 
每 一 个 se>0， 都 存在 一 个 数 M, ERM ATA (m,n) > MA || x, — x, Il <eo 

[9] 在 Girosi et al.(1995) 中 ， 给 出 得 到 了 式 (5.55) 的 不 同方 法 ; 该 方法 直接 将 正则 化 项 多 。 
CF) 5380 aR F(x) 的 光滑 性 联系 起 来 。 
光滑 性 可 看 作 函 数 振荡 性 的 度量 。 特 别 地 ， 如 果 某 一 函数 与 男 一 函数 相 比 具有 较 小 的 
振荡 性 ， 我 们 就 说 这 一 函数 比 另 一 函数 光滑 。 换 句 话说 ， 一 个 函数 越 光 滑 ， 它 所 售 的 
高 频 分 量 就 越 小 。 考 虑 光滑 性 的 这 个 度量 ， 令 FH F(x) 的 多 维 Fourier 变换 ，s 表 
示 多 维 变换 变量 。 令 HRNEK, 4 | s | 趋向 于 无 穷 时 这 个 函数 趋向 于 零 ， 
BN WH(s) 表 示 一 个 “高 通 滤波 器 "的 作用 。 那 么 ， 根 据 Girosi et al.(1995) ， 我 们 可 以 用 
一 个 光滑 性 泛 函 来 表示 正则 化 项 : 

| F(s) | 


ECF) = F lya H(s) ds 
其 中 m 是 x 的 维 数 。 根 据 Fourier 理论 中 的 Parseval EM, AXA RERE 1H 
(s) 的 输出 功率 的 一 种 度量 。 这 样 ， 将 正则 化 问题 映射 到 Fourier 领域 并 且 利用 Fourier 
变换 的 性 质 ， 我 们 就 可 以 得 到 式 (5.55) 所 示 的 解 。 
[10] 线性 微分 算 子 的 最 一 般 的 形式 为 


D = PCX, X25, Km ) 





a” 
本 C++ 二天 = 
Oxi Ix, °°I Xm n 


其 中 x ,x,，…, xm 是 向 量 x 的 分 量 ，p( xi, 25°77, Xm, ) 是 某 个 关于 这 些 分 量 的 函数 。 
AT D 的 伴随 算 子 为 (Morse and Feshback, 1953 ) 


310 D = (-1)" ax Lp(x,,%25° 4m, latbteort+k an 


Ox Axor 
1 2 my 
[11] 为 了 从 通常 的 交叉 确认 得 到 广义 交叉 确认 ， 我 们 先 考虑 在 Wahba(1990) 中 的 一 个 岭 回 
归 问 题 (ridge regression problem) : 
y= Xa +£ (1) 
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[12] 


[13] 


[14] 


其 中 X 是 一 个 Wx N 阶 的 输入 矩阵 ， 噪 声 向 量 8 具有 零 均 值 ， 且 其 协 方差 矩阵 等 于 
oI1。 对 义 进 行 奇异 值 分 解 有 

X = UDV’ 
RP UAV BERS, D 是 对 角 阵 。 令 

y = UTy， B= V'a, £ = U's 

我 们 可 以 用 同和 VY 将 式 (1) 转 变 为 

y = DB+e (2) 
选择 对 角 和 矩阵 D( 注 意 不 要 与 微分 算 子 混淆 ) 使 其 奇异 值 成 对 出 现 。 这 样 就 有 一 个 正 交 
SER W, E WDW’ 是 轮换 矩阵 ; 即 


Go a CN-1l 
ay- ao CN-2 
A = WDW” = CN-2 Qy CN-3 
ay a2 ao 

它 的 对 角 线 元 素 为 常数 。 令 
z=-Wy， Y= Wp, &=We 

则 式 (2) 变 换 为 
z= AY+ 后 (3) 


对 角 和 矩阵 D A EE RAER (maximally uncoupled) 行 ， 而 轮换 矩阵 A 具有 “最 大 耦 
A” (maximally coupled) 行 。 

按照 上 述 变 换 ， 我 们 可 以 陈述 广义 交叉 确认 等 价 于 将 式 (1) 所 示 的 岭 回归 问题 变换 为 
式 (3) 所 示 的 最 大 耦合 形式 ， 然 后 对 z 进 行 一 般 的 交叉 确认 ， 最 后 将 其 变换 为 原 坐 标 
系统 (Wahba, 1990 )。 

基于 1990 年 提出 的 报告 ， 在 Powell(1992) 贡 献 部 分 的 附录 中 ， 对 A.C. Brown 得 到 的 结 
果 给 予 了 高 度 评价 。 很 明显 在 1981 年 得 出 的 这 个 结果 说 明 一 个 RBF 网 络 可 以 实现 任 
意 一 个 函数 从 Be 的 闭 域 上 到 民 的 映射 。 

Hartman et al.(1990) 讨 论 Gauss 函数 以 及 在 凸 的 Ro 紧 子 集 上 的 逼近 ， 在 那里 证 明 具 有 
单 隐藏 层 且 激活 函数 为 Gauss 函数 的 RBF 网 络 是 一 个 通用 逼近 器 。 然 而 ， 对 RBF 网 络 
的 通用 逼近 性 质 的 最 严格 的 证 明 在 Park and Sandberg(1991) P; 这 后 一 个 工作 在 
Hartman et al. 的 论文 发 表 前 就 已 经 完成 了 。 

让 0 为 民 " 上 的 一 个 有 界 区 域 ， 其 边界 为 。 考 虑 9 表示 在 Q=Q+T 上 具有 连续 梯度 
的 连续 实 值 函数 的 集合 。 双 线性 形式 


| (gradu :gradv + wv) dx 


一 定 是 8 上 的 一 个 内 积 。 由 这 个 内 积 产生 的 范 数 完备 的 空间 9 称 为 Sobolev 空间 
(Debnath and Mikusifiski, 1990)。Sobolev 空间 在 偏 微分 方程 理论 上 有 着 重要 的 作用 ， 因 
此 是 Hilbert 空间 的 一 个 重要 的 例子 。 

关于 Parzen-Rosenblatt 的 密度 估计 器 的 渐 近 无 偏 性 的 证 明 ， 参 看 Paren (1962 ) 和 
Cacoullos (1966) 。 
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[15] Nadaraya-Watson 回归 估计 器 在 统计 学 文献 中 已 是 一 个 广泛 研究 的 主题 。 从 更 广 的 意义 
上 说 ， 非 参数 泛 函 估计 在 统计 学 中 占有 中 心地 位 ; 参看 Hardle(1990) 及 Roussas(1991) 
的 论文 集 。 
习题 
径 向 基 函 数 
5.1 一 个 薄板 样 条 函数 可 以 写成 
g(r) = (=) ng( 工 ) 对 于 某 个 c > 0 及 rE 民 
证 明 可 以 用 此 函数 作为 具有 平移 及 旋转 不 变性 的 Green 函数 。 
5.2 在 5.8 节 中 给 出 的 对 图 5-6 所 示 的 RBF 网 络 的 权 值 向 量 w 的 值 集合 ， 对 XOR 问题 
提出 一 组 可 能 的 解 。 试 求 另 一 组 能 解决 该 问题 的 权 值 向 量 w 的 值 。 
5.3 在 5.8 节 中 我 们 给 出 了 用 具有 两 个 隐藏 单元 的 RBF 网 络 解决 XOR 问题 的 解 。 在 这 
个 习题 中 ， 我 们 考虑 用 四 个 隐藏 单元 精确 求解 该 问题 ， 每 个 径 向 基 函 数 的 中 心 由 每 一 个 输入 
数据 点 决定 。 四 个 可 能 的 输入 模式 为 (0,0)、(0,1)、(1,1) 和 (1,0)， 它 们 表示 一 个 正方 形 环 
形 排序 的 四 个 角 。 
(a) 求 上 述 RBF 网 络 的 插值 矩阵 © RAV O ', 
(b) 计 算 该 网 络 的 输出 层 的 线性 权 值 。 
5.4 Gauss 函数 是 仅 有 的 可 因 式 分 解 的 径 向 基 范 数 。 利 用 Gauss 函数 的 这 个 性 质证 明定 
义 为 多 元 Gauss 分 布 的 Green 函数 可 分 解 成 


G(x,t) = II ot, ti) 


其 中 x, Mt, 是 m x1 EE xA tE i 个 分 量 。 
正则 化 网 络 
5.5 考虑 代价 泛 孙 


N 


CF") = Did - Dweda -tl)] + al De |? 
它 用 到 逼近 函数 
F(x) = F wc |x - t; l) 


利用 Fréchet 微分 ， 证 明 当 
(GG + XGo)w = G'd 
AY, RM RSC F* ) 最 小 ， 其 中 N x m EER G, m xm EERE G, m x 1 向量 w 以 及 
Nxi fd, 分 别 由 式 (5.72)、(5.75)、(5.73) 及 (5.46) 定 义 。 
5.6 假设 我 们 定义 


(DD) = X- 1)" ak 2 


其 中 vV? -= S 9 
U = 2 Du Jx ð x. 
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mo x mo 阶 和 矩阵 UU 是 一 个 对 称 正定 和 矩阵， 第 ji SCRA ue. ALE U, Am 
可 以 通过 相似 变换 将 其 分 解 成 如 下 形式 


U` = VEV = VoDV= CC 
HV BIER, CEA, COR UME, BRE C 定义 
C = EV 


问题 相当 于 求 Green 函数 G(x,t) 满 足下 列 条 件 (在 广义 函数 的 意义 下 ): 
(DD), G(x,t) = 5(x - t) 
用 多 维 Fourier 变换 解 关 于 G(x,t) 的 方程 ， 证 明 其 解 为 
G(x,t) = exp(— 4 lx- l3) 
其 中 | x | =x'C’Cx 
5.7 考虑 一 个 定义 如 下 的 正则 化 项 : 


f [DFO ax = D af pọ DFO) lax 


其 中 ay = 

线性 微分 算 子 D 由 梯度 算 子 V 和 拉 普 拉 斯 算 子 V 定义 如 下 : 
D** 二 (V 2)4 

H D**' =V (VD)’ 

证 明 DF(x) = X gra V F(x) 


5.8 在 第 5.5 节 中 ， 我们 由 式 (5.65) 的 关系 导出 了 关于 及 ( 切 的 式 (5.66)。 在 这 个 问题 
中 我 们 希望 从 由 式 (5.65) 开 始 利 用 多 维 Fourier 变换 导出 式 (5.66)。 利 用 Green 函数 G(x) 的 多 
维 Fourier 变换 的 定义 


G(s) = | G(x)exp(- is’x) dx 
完成 推导 ， 其 中 is/-1, sE m 维 的 变换 变量 。 


5.9 考虑 式 (5.95) 所 描述 的 非 线性 回归 问题 。 令 a 表示 和 矩阵 (G + XD "的 第 让 个 元 素 。 
那么 ， 由 式 (5.58) 出 发 ， 证 明 回 归 函 数 f(x) 的 估计 可 以 表示 为 


F(x) = SI W(x, x) x 
其 中 y, 是 对 应 于 模型 输入 x, 的 输出 ， 且 
W(x,x,) = De | x- x; | Jaz, k = 1,2,4, N 314 


上 式 中 G( || + Il) Green 函数 。 

5.10 He BRED RA MRE ZS HAF (Schumaker, 1981 )。 样 条 方法 的 基本 思想 如 
下 : 将 一 个 被 逼近 区 域 用 节点 分 为 有 限 个 子 区 域 ; 节点 可 以 是 固定 的 ， 这 样 副 近 器 就 是 线性 
参数 化 的 ; 节点 也 可 以 是 可 变 的 ， 这 样 逼 近 器 就 是 非 线 性 参数 化 的 。 在 这 两 种 情况 下 ， 在 每 
一 个 逼近 区 域 中 使 用 一 个 阶 数 最 高 为 ”的 多 项 式 ， 且 要 求 整个 函数 必须 是 n -1 次 可 微 的 。 
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多 项 式样 条 函数 是 相对 光滑 函数 ， 容 易 在 计算 机 上 存储 、 操 作 及 计算 。 
在 实际 使 用 的 样 条 函数 中 ， 三 次 样 条 函数 可 能 是 应 用 最 广泛 的 。 一 个 一 维 输入 的 三 次 样 
FR PRB ANZ PRE ST TF : 


BN =F Diy -fx )P + Ap EER] a 


dx? 
其 中 入 在 样 条 函数 中 表示 光滑 性 参数 。 
(a) 验 证 这 个 问题 解 f(x) 的 如 下 性 质 ; 
(1) 两 个 相 续 的 x 节点 值 之 间 f(x) 是 一 个 三 次 多 项 式 。 
(2)f(x) 及 前 两 阶 导 数 都 是 连续 的 ， 除 其 二 阶 导 数值 在 边界 点 为 零 外 。 
(b) 因 为 6(/) 有 惟一 最 小 值 ， 所 以 我 们 必须 有 
Elf tag) >El) 
其 中 g 是 与 一 类 的 二 次 可 微 函 数 ，a 为 任意 实 值 常数 。 这 意味 着 (f+ ag EW at 
函数 在 a=0 局 部 最 小 。 因 此 ， 证 明 
上 式 是 关于 三 次 样 条 问题 的 Euler-Lagrange 方程 。 
有 逼近 速度 
5.11 设计 Guass 型 RBF P28 i UE) F3e— Sobolev 空间 的 一 个 回归 函数 时 ， 式 (5.124) 
定义 泛 化 误差 的 上 界 。 利 用 这 个 上 界 推 导 式 (5.125) 的 公式 ， 该 式 表示 这 个 网 络 对 应 于 某 一 
特定 大 小 的 训练 样本 的 最 佳 网 络 大 小 。 
核 估 计 
5.12 假设 给 你 一 个 “无 噪声 "训练 集合 LA(xi) 局 , ， 要 求 设 计 一 个 神经 网 络 ， 能 推广 到 
由 于 受 加 噪声 的 干扰 而 不 属于 训练 集合 的 那些 样本 点 上 。 令 F(x) 表 示 该 网 络 所 实现 的 逼近 
函数 ， 它 使 期 望 平方 误差 


KE) = > DI UD) - POOP RGAE 


RO 
成 为 最 小 ， 其 中 f:(&) 是 输入 空间 R 上 的 一 个 噪声 分 布 的 概率 密度 函数 。 证 明 这 个 最 小 平 
方 问 题 的 解 为 (Webb , 1994) 





Df )fe(x 一 x; ) 


F(x) = = 
ZRA ~ X;) 
比较 这 个 估计 器 和 Nadaraya-Watson 回归 估计 器 。 
中 心 的 监督 选择 
5.13 RRMA 
E = 4 de 


其 中 e = d - F'(x4) = d - Dwc( lx -t lle) 
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式 中 的 自由 参数 为 线性 权 值 w, Green 函数 的 中 心 t, 以 及 协 方差 矩阵 的 着 E; = CC， 其 中 
C, 是 范 数 加 权 和 矩阵 。 要 求 找到 使 代价 泛 函 @ 最 小 的 自由 参数 。 推 导 下 列 偏 导数 
w = Dec ly -tle) 


j=l 


(b) SË = au, Do (Ns -t Ne) O- t) 


jel 
a ` 
(e) JET 二 一 Ww; 2 eG’ ( | X; 一 t; | Ci JQ; 
i J= 


其 中 G'(:) 是 CC ) 对 其 自 变量 的 导数 ， 且 

Qi = (x -tx -t,)” 
关于 一 个 标量 对 一 个 向 量 的 求 导 数 规则 ， 参 看 第 3 章 的 注释 [2]。 
计算 机 实验 

5.14 在 本 题 中 ， 我 们 将 继续 $.13 节 中 的 计算 机 实验 ,在 设计 作为 二 值 模式 分 类 器 的 
RBF 网 络 时 讨论 随机 选取 中 心 的 情况 。 实 验 的 目的 是 为 了 证 明 以 这 种 方式 训练 的 网 络 的 泛 化 
能 力 相 当 好 。 

设计 的 网 络 是 为 了 解决 5.13 节 中 的 二 值 模式 分 类 问题 ,要求 分 类 的 数据 是 从 一 个 具有 
两 个 等 概率 的 部 分 重 伦 二 维 Gauss 分 布 的 混合 模型 中 抽取 的 。 其 中 一 个 Gauss 分 布 的 均值 向 
量 为 [0,0]”， 公 共 方 差 为 1; 另 一 个 Gauss 分 布 的 均值 向 量 为 [0,2]”， 公 共 方 差 为 4。 该 分 
类 的 决策 规则 为 “选择 具有 最 大 函数 输出 的 类 "”。 

(a) 随 机 选取 m = 20 个 中 心 ， 在 正则 化 参数 和 分 别 为 0，0.1，1，10，100 和 1000 的 情 
况 下 计算 均值 、 标 准 偏差 以 及 正确 分 类 概率 已 的 最 小 值 和 最 大 值 。 为 了 计算 总 体 统计 量 ， 
对 每 一 个 总 体 利用 50 个 独立 的 网 络 分 别 测试 ， 每 次 都 是 对 一 个 固定 的 具有 1000 个 模式 的 参 
考 集合 进行 测试 。 

(b) 构 造 按 (a) 所 述 配 置 计算 的 当 正则 化 参数 = 1 时 的 决策 边界 。 

(c) 当 中 心 数 m = 10 时 (随机 选择 中 心 )， 重 复 (a) 的 计算 。 

(d) 根 据 结 果 ， 讨 论 将 随机 选择 中 心 作为 RBF 网 络 设计 方法 的 优点 ， 以 及 当 网 络 作为 模 
式 分 类 器 时 正则 化 在 性 能 方面 所 起 的 作用 。 

(e) 将 所 得 结果 与 5.13 节 中 用 严格 插值 法 所 得 的 结果 进行 比较 。 特 别 地 ， 确 定 随 机 选择 
中 心 的 方法 对 正则 化 参数 更 不 敏感 。 

5.15 ”也 许可 以 说 ,在 5.13 节 对 一 对 Gaus 分 布 类 进行 分 类 的 计算 机 实验 中 ， 由 于 用 
Gauss 径 向 基 函 数 逼 近 固 有 的 Gauss 类 条 件 分 布 ， 所 以 RBF 网 络 有 较 好 的 性 能 。 在 本 题 中 我 
们 将 用 计算 机 试验 研究 设计 一 个 严格 插值 的 Gauss 型 RBF 网 络 ，Gauss 分 布 为 明显 不 连续 的 
类 条 件 分 布 。 特 别 地 ， 考 虑 两 个 等 可 能 的 类 6， 和 类 %, 的 分 布 : 


。 U(%,), HRC, = 0, 是 一 个 半径 为 =2.34、 中 心 在 x =[ -2,30]7 的 贺 

。 U(@,) ， 其 中 6@,C 民 :是 一 个 中 心 在 x, WHEW r= Vin ED KR 

这 里 U(Q) 表 示 一 个 在 Qc RR* 上 的 均匀 分 布 。 这 些 参数 的 选取 使 得 类 <, 的 决策 区 域 与 
5.13 节 中 用 Gauss 分 布 情况 时 的 决策 区 域 相同 。 研 究 使 用 正则 化 作为 一 种 手段 ， 提 高 利用 严 
格 插值 的 Gauss 型 RBF 网 络 的 分 类 性 能 。 
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6.1 简介 


在 第 4 章 ， 我们 研究 了 由 反 向 传播 算法 训练 的 多 层 感知 器 。 在 第 5 章 ， 我 们 研究 了 另 一 
类 分 层 前 馈 网 络 ， 即 径 向 基 函 数 网 络 。 这 两 种 神经 网 络 按 它 们 自己 的 方式 都 是 通用 逼近 器 。 
在 这 一 章 ， 我 们 将 讨论 另 一 种 通用 的 前 馈 网 络 的 类 型 ， 称 为 支持 向 量 机 (support vector 
machine, SVM), H Vapnik 首先 提出 (Boser, Guyon, and Vapnik, 1992; Cortes and Vapnik, 1995; 
Vapnik, 1995 ,1998) 。 像 多 层 感 知 器 网 络 和 径 向 基 函 数 网 络 ， 支 持 向 量 机 能 用 于 模式 分 类 和 非 
线性 回归 。 

当然 ， 支 持 向 量 机 是 一 种 线性 机 器 ， 有 一 些 很 好 的 特性 。 为 了 解释 它 怎样 工作 ， 从 模式 
分 类 中 出 现 的 可 分 模式 的 情况 开始 可 能 是 最 容易 的 。 在 此 背景 下 ， 支 持 向 量 机 的 主要 思想 是 
建立 一 个 超 平面 作为 决策 曲面 ， 使 得 正 例 和 反例 之 间 的 隔离 边缘 被 最 大 化 。 通 过 使 用 在 第 2 
章 中 讨论 过 的 基于 统计 学 习 理 论 的 原理 性 方法 ， 机 器 获得 了 这 个 想 要 的 特性 。 更 精确 地 说 ， 
支持 向 量 机 是 结构 风险 最 小 化 方法 的 近似 实现 。 这 个 归纳 原理 是 基于 这 样 的 事实 ， 学 习 机 器 
在 测试 数据 上 的 误差 率 ( 即 泛 化 误差 率 ) 以 训练 误差 率 和 一 个 依赖 于 VC 维 数 (Vapnik- 
Chervonenkis dimension) 的 项 的 和 为 界 ; 在 可 分 模式 情况 下 ， 支 持 向 量 机 对 于 前 一 项 的 值 为 
零 ， 并 且 使 第 二 项 最 小 人 化。 因此， 尽管 它 不 利用 问题 的 领域 知识 ， 在 模式 分 类 问题 上 支持 向 
量 机 能 提供 好 的 泛 化 性 能 。 这 个 属性 是 支持 向 量 机 特有 的 。 

在 “支持 向 量 ”x; 和 输入 空间 抽取 的 向 量 x 之 间 的 内 积 核 这 一 个 概念 是 构造 支持 向 量 机 
学 习 算法 的 关键 。 支 持 向 量 是 由 算法 从 训练 数据 中 抽取 的 小 的 子 集 构成 。 依 赖 于 这 个 内 积 核 
的 不 同 产生 方式 ， 可 能 建立 不 同 的 学 习 机 器 ， 由 它们 自己 的 非 线性 决策 曲面 所 表征 。 尤 其 
是 ， 可 以 使 用 支持 向 量 学 习 算法 来 构建 学 习 机 器 中 的 下 面 三 种 类 型 : 

。 多 项 式 学 习 机 器 

。 径 向 基 函 数 网 络 

。 两 层 感 知 器 ( 即 有 单独 隐藏 层 ) 
也 就 是 说 ， 对 于 这 些 前 馈 网 络 中 的 每 一 个 ， 利 用 给 定 的 训练 数据 集 我 们 可 以 使 用 支持 向 量 学 
习 算 法 来 实现 学 习 过 程 ， 自 动 决定 要 求 隐藏 单元 的 数目 。 用 另 一 种 方式 陈述 : 由 于 反 向 传播 
算法 专门 为 训练 多 层 感 知 器 设计 ， 所 以 支持 向 量 学 习 算 法 是 一 种 更 一 般 化 的 算法 ， 因 为 它 有 
更 广泛 的 应 用 。 


本 章 的 组 织 


本 章 的 主体 组 织 为 三 部 分 。 在 第 一 部 分 中 ,我们 描述 支持 向 量 机 背后 的 基本 思想 。 特 别 
地 ， 在 6.2 节 讨 论 对 于 简单 的 线性 可 分 模式 情况 下 最 优 超 平面 的 构建 。 接 着 在 6.3 节 考 虑 更 
复杂 的 不 可 分 模式 的 情况 。 

按照 这 样 做 ， 我 们 为 本 章 的 第 二 部 分 铺 平 道路 ， 这 部 分 给 出 支持 向 量 机 解决 模式 识别 任 
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务 的 详细 讨论 。 这 个 工作 在 6.4 节 完 成 。 在 第 6.5 节 再 回 到 XOR 问题 ， 说 明 支 持 向 量 机 的 构 
造 。 在 第 6.6 节 再 次 谈 及 在 第 4，5 章 中 研究 过 的 模式 分 类 的 计算 机 实验 ， 从 而 提供 支持 向 
量 机 与 由 反 向 传播 算法 训练 的 多 层 感知 器 及 标准 的 径 向 基 薄 数 网 络 之 间 的 一 个 比较 。 

本 章 的 最 后 一 部 分 处 理 非 线 性 回归 问题 。 在 6.7 节 描 述 一 个 损失 函数 ， 它 非常 适合 这 个 
问题 。 然 后 在 第 6.8 节 讨论 用 于 非 线 性 回归 的 支持 向 量 机 的 构造 。 

在 第 6.9 节 以 一 些 最 终 评述 结束 本 章 。 


6.2 线性 可 分 模式 的 最 优 超 平 面 


考虑 训练 样本 {(xi ,di IN, HP x, 是 输入 模式 的 第 i 个 例子 ，d; 是 对 应 的 期 望 响应 
(目标 输出 )。 开 始 我 们 假定 由 子 集 a; = + 1 代表 的 模式 (类 ) 和 di = -1 代表 的 模式 是 “线性 
可 分 的 "。 用 于 分 离 的 超 平面 形式 的 决策 曲面 方程 是 





wx+b=0 (6.1) 
其 中 x 是 输入 向 量 ，w 是 可 调 的 权 值 向 量 ，4 是 偏 置 。 这 样 我 们 可 以 写成 
wx,+b20, Wd, =+1 wx,+5<0, Fd, =-1 (6.2) 


PEK BE TRA HE BT OP ABE, EE HH 4 a PL EA 
48; 在 第 6.3 节 将 放宽 这 个 假定 。 

对 于 一 个 给 定 的 权 值 向 量 w 和 偏 置 5， 
由 方程 (6.1) 定 义 的 超 平面 和 最 近 的 数据 点 之 
闻 的 间隔 被 称 为 分 离 边 缘 ， 用 p 表示 。 支 持 
向 量 机 的 目标 是 找到 一 个 特殊 的 超 平面 ， 对 
于 这 个 超 平面 分 离 边缘 o 最 大 。 在 这 个 条 件 
下 ,决策 曲面 称 为 最 优 超 平面 (optimal 
hyperplane), Al 6-1 给 出 的 是 二 维 输入 空间 中 
最 优 超 平面 的 几何 结构 。 

Bw, Ab, 分 别 表 示 权 值 向 量 和 偏 置 的 
最 优 值 。 相 应 地 ， 在 输入 空间 里 表示 多 维 线 





性 决策 面 的 最 优 超 平面 由 
Wx+b,=0 (6.3) m61 线性 可 分 模式 最 优 超 平面 的 思想 示意 图 
定义 ， 它 是 方程 (6.1) 的 改写 。 判 别 函 数 
g(x) = wx+ b, (6.4) 


给 出 从 x 到 最 优 超 平面 的 距离 的 一 种 代数 度量 (Duda and Har,1973)。 看 出 这 一 点 的 最 简单 方 
法 或 许 是 将 x 表达 为 

x= x, +r Tai 
其 中 ,x, 是 x 在 最 优 超 平面 上 的 常规 投影 ，r 是 期 望 的 代数 距离 ; 如 果 x 在 最 优 超 平 面 的 正 
面 ，r 是 正 值 ， 相反 如 果 x 在 最 优 超 平面 的 负面 ，r 是 负 值 。 因 为 由 定义 知 g(x,) =0， 由 此 


推出 


g(x) = wix+), = rlilw, ll 
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或 者 r= E0 
Iw, l 
尤其 ， 从 原点 ( 即 x=0) 到 最 优 超 平面 的 距离 由 b,/ || w, | 给 定 。 如 果 b, > 0， 原 点 在 最 优 超 
平面 的 正面 ;如 果 b, <0, 原 点 在 负面 ;如 果 b, = 0, 最 优 超 平面 通过 原点 。 这 些 代 数 结果 
的 几何 解释 在 图 6-2 中 给 出 。 xz 
现在 的 问题 是 对 于 给 定 的 数据 集 9 = {(x,,d,) 1, 
找到 最 优 超 平面 的 参数 w Mb, o MPR 6-2 描绘 的 
结果 。 可 以 看 出 一 对 (w, , 6, ) 一 定 满足 条 件 : 
wx, + > 1, WF d; =+1 
wx, + b, <-1, XIF d; =-1 
注意 如 果 式 (6.2) 成 立 ， 即 模式 是 线性 可 分 的 ， 总 可 
以 重新 调整 w, Ab, 的 值 使 得 式 (6.6) 成 立 ; 这 种 重 
新 调整 并 不 改变 式 (6.3)。 
满足 式 (6.6) 第 一 行 或 第 二 行 等 号 情况 的 特殊 数 
据点 (x; ,di ) 称 为 支持 向 量 ,“ 支 持 向 量 机 ”因此 得 名 。 
这 些 向 量 在 这 类 学 习 机 器 的 运行 中 起 着 主导 作用 。 用 
概念 性 的 术语 ， 支 持 向 量 是 那些 最 靠近 决策 面 的 数据 。 图 62 ERA FARRA 


(6.5) 





(6.6) 





点 ， 这 样 这 些 数据 点 是 最 难 分 类 的 。 因 此 ， 它 们 和 决 的 代数 距离 的 几何 解释 
策 面 的 最 优 位 置 直接 相关 。 
考虑 一 个 支持 向 量 x 对 应 于 a = + 1。 然 后 根据 定义 ,我们 有 
g(x?) = wx 二 4b, = 二 1 MEd”? = 于 1 (6.7) 


从 式 (6.5) 知 从 支持 向 量 x” 到 最 优 超 平面 的 代数 距离 是 


1 4 ls 
za) | Twr #2 =+1 
r z= = | (6.8) 
| w, | E d” =-1 


~ Tw T 
其 中 加 号 表示 XO 在 最 优 超 平 面 的 正面 ， 而 减 号 表示 x'” 在 最 优 超 平面 的 负面 。 让 p 表示 在 
两 个 类 之 间 的 分 离 边 缘 的 最 优 值 ， 其 中 这 两 个 类 构成 训练 集合 3 。 因 此 从 式 (6.8) 得 到 


p= 2r = TeT (6.9) 
式 (6.9) 说 明 ， 最 大 化 两 个 类 之 间 的 分 离 边缘 等 价 于 最 小 化 权 值 向 量 w 的 欧 几 里 德 范 数 。 
总 之 ， 由 式 (6.3) 定 义 的 最 优 超 平面 是 惟一 的 ， 意 味 着 最 优 权 值 向 量 w, 提供 正 反例 之 间 
的 最 大 可 能 的 分 离 。 这 个 优化 条 件 是 通过 最 小 化 权 值 向 量 w 的 欧 几 里 德 范 数 获得 的 。 


用 于 寻找 最 优 超 平面 的 二 次 最 优化 


我 们 的 目标 是 发 展 一 个 计算 上 有 效 的 过 程 ， 通 过 使 用 训练 样本 了 = {(xi, di ) 志 :找到 最 
优 超 平面 ， 并 且 满 足 约束 条 件 
d,(w'x, +b) = 1 MF i = 1,2,--,N . (6.10) 
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这 个 约束 条 件 把 式 (6.6) 两 行 组 合 在 一 起 ， 其 中 w, 被 w 来 代替 。 

我 们 必须 解决 的 约束 最 优 问题 现在 可 陈述 如 下 : 

给 定 训 练 样本 | (x;, qd;)l ,找到 权 值 向 量 Ww 和 偏 置 b 的 最 优 值 使 得 它们 满足 下 面 的 约 
REM 

d;,(w’x; + 6) = 1 xD i = 1,2,°°,N 
并 且 权 值 向 量 wR UR BRK 
p(w) = 了 ww 

这 里 包含 比 列 因子 1/2 是 为 了 表示 方便 。 这 个 约束 优化 问题 称 为 原 问题 (primal problem)。 它 
的 特点 如 下 : 

。 代价 函数 DWE wHo RA, 

。 约束 条 件 关于 w 是 线性 的 。 


因此 ， 我 们 可 以 使 用 Lagrange 乘 子 方法 解决 约束 最 优 问 题 (Berisekas,1995) 。 
首先 ， 我 们 建立 Lagrange $4 


J(w,b,a) = Sw" - Dalai (Wx + b) = 1] (6.11) 


其 中 辅助 非 负 变量 a, 称 作 Lagrange 来 子 。 约束 最 优 问题 的 解 由 Lagrange PRK J(w, b,a) HR 
点 决定 ， 此 函数 对 w Al b 必定 最 小 化 ， 对 a 必定 最 大 化 。J(w,b,a) 对 wI b 求 微分 并 置 结 
果 等 于 零 ， 我 们 得 到 下 面 两 个 最 优化 条 件 : 


a J(w,b,a) 
条 件 1: zy =O 
条 件 2: PJW, bra) -0 
应 用 最 优化 条 件 1 到 式 (6.11) 的 Lagrange 函数 ， 得 到 (在 重新 安排 项 之 后 ) 


w= Yuax (6.12) 
应 用 最 优 条 件 2 到 式 (6.11) 的 Lagrange 函数 ， 得 到 
> aa = =0 (6.13) 


解 向 量 w 定 义 为 N 个 训练 样本 的 展开 。 但 是 注意 ， 尽管 由 于 Lagrange 函数 的 凸 性 这 个 解 是 
惟一 的 ， 但 并 不 能 认为 Lagrange 系数 a, 亦 是 惟一 的 。 
在 这 里 同样 重要 的 是 注意 ， 在 鞍点 对 每 一 个 Lagrange 乘 子 a; ， 乘 子 与 它 相 应 的 约束 的 乘 
a,{d;(w'x; + 6) -1] =0 XF i = 1,2,…,N (6.14) 
只 有 这 些 精确 满足 式 (6.14) 的 乘 子 才 能 假定 非 零 值 。 这 个 性 质 是 从 最 优化 理论 的 
Kuhn-Tucker 条 件 得 出 的 (Fletcher, 1987; Bertsekas ,1995) 。 
就 像 早 先 提 到 的 ， 原 问题 是 处 理 凸 代价 函数 和 线性 约束 。 给 定 这 样 一 个 约束 最 优化 问 
题 ， 可 能 构造 男 一 个 问题 ， 称 为 对 偶 问 题 (dual problem)。 这 第 二 个 问题 与 原 问 题 有 同样 的 最 
优 值 ， 但 由 Lagrange 乘 子 提供 最 优 解 。 特 别 地 ， 可 以 陈述 对 偶 定 理 如 下 (Bertsekas,1995)， 
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(a) 如 果 原 问题 有 最 优 解 ， 对 偶 问 题 也 有 最 优 解 ， 并 且 相 应 的 最 优 值 是 相同 的 。 
(b) 为 了 使 得 w, 为 原 问 题 的 一 个 最 优 解 和 a, 为 对 偶 问 题 的 一 个 最 优 解 的 充分 必要 条 件 
是 w, 对 原 问题 是 可 行 的 ， 并 且 
P(w) = SW sb so) = minJ(w, b, ,0,) 


为 了 说 明 对 偶 问题 是 我 们 原 问题 的 前 提 ， 我 们 首先 送 项 展开 式 (6， 11) 如 下 : 
Imba) = 了 ww adn" -ea De (6.15) 
按照 式 (6.13) 最 优 条 件 的 性 质 ， 式 (6. 15) 右 并 第 三 项 为 零 。 TEARC. 12) 我 们 有 


wwe Sadw's, = = > Yasada 
Al, HIRREN J(w, b, 2) = (0) 可 以 改写 式 (6 15) 为 


N 


O(a) = Ya 一 t 之 Duaddxs (6.16) 


其 中 a; 是 非 负 的 。 
现在 可 以 陈述 对 偶 问题 : 


给 定 训练 样本 |(x ,d,) 11, 村 找 最 大 化 目标 西数 
Q(a) = Sa, 一 4 2 Saadadxy 
的 Lagrange 乘 子 ia; 1 ， 满 足 约束 条 件 


(1) Sed = 0 

(2)a -0 对 于 ; = 1 2,…… ,和 N 

注意 ， 对 偶 问 题 完全 是 根据 训练 数据 来 表达 的 。 而 且 ， 函 数 0(a) 的 最 大 化 仅 依赖 于 输 
入 模式 点 积 的 集合 {x x 1 Cp -1。 

确定 用 。 ,表示 的 最 优 Lagrange 乘 子 后 ， 可 以 用 式 (6.12) 计 算 最 优 权 值 向 量 w,， 并 写 
成 


N 
W, = 2) a,, id; X; (6.17) 
i=l 


为 了 计算 最 优 偏 置 六 ， 可 以 使 用 获得 的 w。 ， 并 对 于 一 个 正 的 支持 向 量 利用 式 (6.7)， 这 样 


有 
b, = 1- wx Wd’? = 1 (6.18) 


最 优 超 平面 的 统计 特性 


从 第 2 章 给 出 的 统计 学 习 理 论 ， 回 忆 学习 机 器 的 VC ERE REA BE 
用 的 方式 。 我 们 也 知道 在 m 维 空间 分 离 超 平面 集 的 VC 维 为 m + 1。 然 而 ， 为 了 应 用 第 2 章 
描述 的 结构 风险 最 小 化 的 方法 ， 我 们 需要 建立 VC 维 数 变化 的 分 离 超 平面 集合 ， 使 得 经 验 风 
险 ( 即 训练 分 类 误差 ) 和 VC 维 数 同时 最 小 化 。 在 支持 向 量 机 里 ， 通 过 约束 权 值 向 量 w 的 
Euclid 范 数 对 分 离 超 平 面 集合 施加 一 个 结构 。 特 别 地 ， 我 们 可 以 陈述 如 下 定理 (Vapnik, 1995, 
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1998) : 
令 史 表示 包括 所 有 输入 向 量 xi Xo Xy 的 最 小 球 的 直径 。 由 方程 
w, x + b, = 0 


描述 的 最 优 超 平 面 集合 ， 有 一 个 VC 维 数 hh 的 上 界 为 
.J | Dp 
h < min] Fama} + (6.19) 


其 中 项 符号 | | 表示 大 于 等 于 所 包含 的 数值 的 最 小 整数 ，p 是 等 于 2/ | w, || HRW, m 
是 输入 空间 的 维 数 。 
这 个 定理 告诉 我 们 ， 可 以 试验 控制 最 优 超 平 而 的 VC 维 数 ( 即 复杂 性 )， 通 过 正确 选择 分 离 边 
缘 pb， 它 与 输入 空间 的 维 数 m 无 关 。 
于 是 假定 ， 我 们 有 一 个 通过 分 离 超 平面 描述 的 散 套 结构 如 下 : 

S = {wx+b:|wl’ sat, k = 1,2,.… (6.20) 
由 VC 维 数 在 式 (6.19) 定 义 的 上 界 ， 在 式 (6.20) 中 描述 的 嵌 套 结构 可 以 通过 分 离 边 缘 改 写 
为 等 价 形式 


2 
S, = | ah lip’ > a}, k = 1,2,°° (6.21) 


e 

其 中 a, Ale, 都 是 常数 。 

从 第 2 章 我 们 也 知道 ， 为 了 得 到 较 好 的 泛 化 能 力 应 该 选择 一 个 特殊 的 结构 ， 根 据 结构 风 
险 最 小 化 原则 ， 它 应 有 最 小 的 VC 维 数 和 训练 误差 。 从 式 (6.19) 和 (6.21) 中 我 们 发 现 通 过 使 
用 最 优 超 平面 ( 即 利 用 具有 最 大 分 离 边缘 p 的 分 离 超 平面 )， 这 个 要 求 可 以 被 满足 。 等 价 地 ， 
根据 式 (6.9) 应 该 使 用 具有 最 小 欧 几 里 德 范 数 的 最 优 权 值 向 量 w,。 因 此 ， 最 优 超 平面 作为 线 
性 可 分 模式 决策 面 的 选择 ， 不 仅 直观 上 满足 而 且 完 全 符合 支持 向 量 机 的 结构 风险 最 小 化 的 原 
理 。 


6.3 不 可 分 模式 的 最 优 超 平面 


到 目前 为 止 讨论 集中 在 线性 可 分 模式 的 情况 。 在 这 一 节 我 们 考虑 更 难 的 不 可 分 模式 的 情 
况 。 给 定 这 样 一 组 训练 数据 ， 不 可 能 建立 一 个 不 具有 分 类 误差 的 分 离 超 平面 。 然 而 ， 我 们 希 
望 找到 一 个 最 优 超 平面 ， 它 对 整个 训练 集合 平均 的 分 类 误差 的 概率 达到 最 小 。 

在 类 之 间 的 分 离 边缘 称 为 是 软 的 ， 如 果 数 据点 (xi , d; ) 不 满足 下 面 的 条 件 ( 见 式 (6.10)): 

d;(w'x; +b) =+1, i= 1,2,-°,N 

这 种 违反 条 件 以 下 面 两 种 方式 之 一 出 现 : 

。 数据 点 (x , d; ) 落 在 分 离 区 域 之 内 ， 但 在 决策 面 正 确 的 一 侧 ， 如 图 6-3a 所 示 。 

。 数据 点 (x; , d; ) 落 在 决策 面 错 误 的 一 侧 ， 如 图 6-3b 所 示 。 
注意 ， 在 情况 1 我 们 有 正确 的 分 类 ， 但 在 情况 2 分 类 是 错误 的 。 

为 了 建立 不 可 分 离 数据 点 正式 处 理 的 阶段 ， 我 们 引入 一 组 新 的 非 负 标 量变 量 E | 局 ,到 分 
离 超 平面 ( 即 决策 面 ) 的 定义 中 ， 表 示 为 
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支持 向 量 支持 向 量 
数据 上 
图 6-3 
a) 数 据点 x, APRE ) 落 在 分 离 区 域 之 内 ， 但 在 决策 面 正确 的 一 侧 
b) 数 据点 xi (FRE, ) 落 在 决策 面 错误 的 一 侧 
d; (w' x; +h) >1-6&,, i= 1,2,°,N (6.22) 


这 里 g, 称 为 松弛 变量 (slack variable); 它们 度量 一 个 数据 点 对 模式 可 分 的 理想 条 件 的 偏离 程 
度 。 对 于 0<&;<1， 数 据点 落 人 人 分离 区 域 的 内 部 ， 但 是 在 决策 面 的 正确 一 侧 ， 如 图 6-3a 所 
示 。 对 于 & > 1， 数 据点 落 到 分 离 超 平面 的 错误 一 侧 ， 如 图 6-3b 所 示 。 支 持 向 量 是 那些 精确 
满足 式 (6.22) 的 特殊 数据 点 ， 即 使 &, >0。 注 意 ， 如 果 一 个 &, > 0 对 应 的 样本 被 遗弃 在 训练 集 
外 ， 决 策 面 就 要 改变 。 因 此 ， 支 持 向 量 的 定义 对 线性 可 分 和 不 可 分 的 情况 都 是 相同 的 。 

我 们 的 目标 是 找到 分 离 超 平面 使 其 在 训练 集 上 的 平均 错误 分 类 的 误差 最 小 。 为 了 达到 这 
一 点 ， 通 过 对 权 值 向 量 w 最 小 化 泛 函 


@B(E) = Dis -1) 
ERRER. DARRER |w? 的 限制。 函数 1(8) 是 一 个 指标 吕 娄 ， 由 


0 HE<O0 
re «| 
(8) 1 GBE>O 


定义 。 不 幸 的 是 ，@B(&) 对 w 的 最 小 化 是 非 凸 的 最 优化 问题 ， 它 是 NP -完全 的 ”。 
为 了 使 最 优化 问题 数学 上 易 解 ， 我 们 写 出 
@(E) = ye 

TZA @(&)。 MA, SEAL ARERR ELI w 的 最 小 化 公式 简化 计算 ， 即 

B(w,€) = dwiws CDs (6.23) 
如 前 一 样 ， 最 小 化 式 (6.23) 中 第 1 项 与 最 小 化 支持 向 量 机 的 VC 维 数 有 关 。 至 于 第 IMS, 
它 是 测试 错误 数目 的 一 个 上 界 。 在 式 (6.23) 中 代价 函数 的 公式 与 结构 风险 最 小 化 原则 完全 吻 
a 
参数 C 控制 机 器 的 复杂 性 和 不 可 分 离 点 数 之 间 的 平衡 ， 这 样 它 也 可 以 被 看 作 是 一 个 “ 正 
则 化 ”参数 的 形式 。 参 数 C 由 使 用 者 选 定 。 这 可 由 下 面 两 种 方法 之 一 完成 : 
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。 参数 C 由 实验 决定 ， 通 过 标准 使 用 训练 /( 确 认 ) 测 试 集 ， 它 是 重 采样 的 粗略 形式 。 

。 它 由 分 析 决 定 ， 从 式 (6.19) 估 计 VC 维 数 和 使 用 基于 VC 维 数 的 机 器 泛 化 性 能 的 界 。 

无 论 哪 种 情况 ， 泛 隐 OCW, E) Rt wE 所: 求 最 优化 ， 满 足 式 (6.22) 描 述 的 约束 条 件 和 
:0。 这 样 做 ，w 的 范 数 平方 被 认为 是 一 个 关于 不 可 分 离 点 的 联合 最 小 化 中 一 个 数量 项 ， 
而 不 是 作为 强加 在 关于 不 可 分 离 点 数量 的 最 小 化 上 的 一 个 约束 条 件 。 

对 刚刚 陈述 的 不 可 分 模式 的 最 优化 问题 ， 包 括 线性 可 分 模式 的 最 优化 问题 作为 它 的 一 种 
特殊 情况 。 具 体 地 ， 在 式 (6.22) 和 式 (6.23) 中 对 所 有 的 i EE = 0， 就 把 它们 化 简 为 相应 的 
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线性 可 分 情形 。 

我 们 现在 对 不 可 分 离 的 情况 的 原 问 题 可 以 正式 地 陈述 如 下 : 

给 定 训练 样本 | (x,,d;)| |， 了 寻找 权 值 向 量 w 和 偏 置 5b 的 最 优 值 ， 使 得 它们 满足 约束 条 
件 

d,(w'x, + b) = 1—&, 对 于 1 = 1,2，……,N 
& >0 对 所 有 的 i 
并 且 使 得 权 值 向 量 Ww 和 松弛 变量 & 最 小 化 代价 函数 
@(w,é) = wwe CDs 

其 中 ，C 是 使 用 者 选 定 的 正 参 数 。 
使 用 Lagrange 乘 子 的 方法 ， 以 一 种 与 6.2 节 所 描述 的 相似 方式 来 处 理 ， 我 们 可 以 得 到 不 可 分 
离 模式 的 对 偶 问 题 的 表示 如 下 (参看 习题 6.3) 

给 定 训 练 样本 | (xi di)| 之 ,， 寻 找 最 大 化 目标 函数 


O(a) = de -4X Maadan’s 
的 Lagrange RF la}, 满足 约束 条 件 


(1) Yaa = 0, 
(2)0 <a, <C SFi=1,2,--°,N 
其 中 ，C 是 使 用 者 选 定 的 正 参 数 。 


注意 ， 松 弛 变量 E 和 它们 的 Lagrange 乘 子 都 不 出 现在 对 偶 问题 里 。 除 了 一 些 少许 的 但 很 重要 

的 差别 外 ， 不 可 分 模式 的 对 偶 问题 与 线性 可 分 模式 的 简单 情况 相似 。 在 两 种 情况 下 ， 最 大 化 

的 目标 函数 ial 是 相同 的 。 不 可 分 离 情况 与 可 分 离 情 况 的 不 同 在 于 限制 条 件 0, >0 被 替换 

为 条 件 更 强 的 0<a; < C。 除 了 这 个 修改 ， 不 可 分 离 情 况 的 约束 最 优化 问题 和 权 值 向 量 w 和 

偏 置 5 的 最 优 值 计算 过 程 与 线性 可 分 离 情 况 的 一 样 。 还 要 注意 支持 向 量 和 以 前 的 定义 相同 。 
权 值 向 量 w 的 最 优 解 由 


w= De, dx; (6.24) 


给 出 ， 其 中 Ns 是 支持 向 量 的 个 数 。 决定 偏 置 最 优 值 所 使 用 的 方法 也 与 以 前 描述 的 过 程 相 
似 。 具 体 地 ，Kuhn- Tucker 条 件 被 定义 为 
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a;_d;(w’x, + 6) -1+6,] = 0, i = 1,2,--,N (6.25) 
和 u£ = 0， i=1,2,…,N (6.26) 
式 (6.25) 是 式 (6.14) 的 改写 ， 单 位 1 被 (1-&,) 代 替 。 至 于 式 (6.26)，y; 是 Lagrange 乘 子 ， 引 
人 它 的 目的 是 对 所 有 i 强制 松弛 变量 &, 为 非 负 。 在 鞍点 对 于 原 问 题 的 Lagrange 函数 对 松弛 变 
E E 的 导数 的 值 为 零 ， 计 算 这 个 值得 到 
a; +p, = C (6.27) 
联合 式 (6.26) 和 式 (6.27) ， 我 们 有 
&=0, WR av< C (6.28) 
我 们 可 以 决定 最 优 偏 置 量 b, 如下， 取 训 练 集中 满足 0<a,; < C 的 任意 数据 点 (x;, d;). 因此 
E = 0， 并 对 式 (6.25) 使 用 那个 数据 点 。 然 而 ， 从 数值 的 角度 看 ， 采 用 从 训练 样本 中 所 有 这 
样 的 数据 点 得 到 的 5, 的 平均 值 更 好 (Burges, 1998)。 


6.4 怎样 建立 用 于 模式 识别 的 支持 向 量 机 


有 了 关于 对 不 可 分 离 模式 怎样 找到 最 优 超 平面 的 知识 ， 我 们 现在 正式 描述 建立 用 于 模 
式 -识别 任务 的 支持 向 量 机 。 

基本 上 ， 支 持 向 量 机 3” 的 思想 建立 在 两 个 数学 运算 上 ， 现 概述 如 下 并 在 图 6-4 中 说 明 : 

1. 输入 向 量 到 高 维特 征 空间 的 非 线性 上 映射， 特征 空间 对 输入 和 输出 都 是 隐藏 的 。 

2. 构造 一 个 最 优 超 平面 用 于 分 离 在 第 1 步 中 发 现 的 特征 。 

两 个 操作 的 基本 理由 在 下 面 解释 。 





特征 空间 





— 


输入 ( 数据 ) 空间 
图 6-4 从 输入 空间 到 特征 空间 的 非 线性 映射 p(*) 


操作 1 根据 第 5 章 中 讨论 的 关于 模式 可 分 性 的 Cover 定理 执行 。 考 虑 由 非 线性 可 分 模式 
构成 的 输入 空间 。Cover 定 理 陈 述 为 : 如 果 两 个 条 件 均 满足 ， 那 么 多 维 空间 能 变换 为 一 个 新 
的 特征 空间 ， 使 得 在 特征 空间 中 模式 以 较 高 的 概率 为 线性 可 分 的 。 首 先 ， 变 换 是 非 线性 的 。 
其 次 ， 特 征 空间 的 维 数 是 足够 高 的 。 这 两 个 条 件 在 操作 1 中 体现 。 然 而 ， 注 意 Cover 定理 没 
有 讨论 分 离 超 平面 的 最 优 性 。 只 有 使 用 一 个 最 优 分 离 超 平面 使 YC 维 数 达到 最 小 和 获得 泛 化 
能 力 。 

接着 要 说 明 的 是 第 2 个 操作 从 何 而 来 。 有 具体 地 ， 操 作 2 利用 建立 最 优 分 离 超 平面 的 思 
想 ， 它 根据 6.3 节 描 述 的 理论 ， 但 是 有 一 个 根本 的 不 同 : 现在 分 离 超 平面 被 定义 为 从 特征 空 
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Ve) 7 Hy FE) RE aC ANE a AS (SE, NP ee SE 
VC 维 数理 论 上 的 结构 风险 最 小 化 的 原则 是 一 致 的 。 这 个 构造 与 内 积 核 的 求 值 有 关 。 


内 积 核 


令 x 表 示 从 输入 空间 得 到 的 向 量 ， 假 定 维 数 为 mo。 令 qj;(x) 1 六 表示 从 输入 空间 到 特征 
空间 的 一 个 非 线性 变换 的 集合 : m 是 特征 空间 的 维 数 。 对 所 有 的 j, BE w (x) 根 据 先 验 知 
识 定 义 的 。 给 定 非 线性 变换 的 这 样 一 个 集合 ， 可 以 定义 一 个 充当 决策 面 的 超 平面 


Zuga +b=0 (6.29) 
其 中 { wj 加 :表示 把 特征 空 = 间 连 接 到 输出 空间 的 线性 权 值 的 集合 ， b 是 偏 置 。 我 们 可 以 简化 为 


Ye oa) = 0 (6.30) 


其 中 假定 对 所 有 的 x， 和 (x) = 1， 所 以 wo 表示 偏 置 ?5。 式 (6.30) 定 义 了 一 个 决策 面 ， 这 个 决 
策 面 在 特征 空间 根据 机 器 的 线性 权 值 进行 计算 。 通 过 特征 空间 ，gq, (x) 表 示 提 供给 权 值 w 的 
输入 。 定 义 向 量 
P(X) = [p(X), px), pn (x) 17 (6.31) 
其 中 ， 由 定义 有 
g(x) = 1 对 所 有 的 x (6.32) 
实际 上 ， 向 量 q(x) 表示 由 于 输入 向 量 x 在 特征 空间 诱导 出 的 “ 像 "， 如 图 6-4 所 示 。 那 么 ， 
利用 这 个 像 用 紧凑 的 形式 定义 决策 面 : 
w' g(x) = 0 (6.33) 
我 们 使 式 (6.12) 适 合 现在 涉及 特征 空间 的 情形 ， 在 特征 空间 中 现在 寻找 特征 的 “线性 ”可 分 
性 ， 可 以 写成 


we Dadoa) (6.34) 

其 中 特征 向 量 p(x; ) 与 在 第 i 个 例子 里 输入 模式 x, 相对 应 。 因 此 将 式 (6.34) 代 入 式 (6.33)， 
可 以 定义 在 特征 空间 中 计算 的 决策 面 如 下 : 

Sado" Gx )@(x) =0 (6.35) 


9 (x; )9(x) 表 示 特 征 空 s 间 中 由 第 ; 个 例子 的 输入 模式 x, 和 输入 向 量 x 诱导 的 两 个 向 量 内 
mn kernel), FH K(x, x, ) 表 示 并 且 定 义 为 


K(x,x;) = @"(x)@(x,) = Yonex) i= 1,2,-+,N (6.36) 
从 这 个 定义 ， 立 即 看 出 内 积 核 是 自 变量 的 对 称 画 数 ， 表示 为 
K(x,x,) = K(x,,x) ”对 所 有 的 i (6.37) 


最 重要 的 是 ， 我 们 可 以 使 用 内 积 核 K(x,x, ) 在 特征 空间 中 建立 最 优 超 平面 ， 无 需 用 显 式 的 形 
式 考虑 特征 空间 自身 。 将 式 (6.36) 代 入 (6.35) 容 易 看 出 这 一 点 ， 此 时 最 优 超 平 面 定义 为 





SH TEM 239 





N 
Syad:K(x,x;) = 0 (6.38) 
ist 


Mercer 定理 


式 (6.36) 对 于 内 积 核 函 数 K(x, x, ) 的 展开 是 在 泛 函 分 析 中 出 现 的 Mercer 定理 的 一 种 特殊 
情形 。 这 个 定理 可 以 正式 表述 如 下 (Mereer,1908; Courant and Hilbert, 1970): 

K(x,xX ) 表 示 一 个 连续 的 对 称 核 ， 其 中 X 定 义 在 闭 区 间 acx<b,x 类 似 。 核 K(x,X ) 可 
以 被 展开 为 级 数 

K(x,x ) = Dne ag) (6.39) 
其 中 所 有 的 入 均 是 正 的 。 为 了 保证 这 个 展开 式 是 合理 的 并 且 为 绝对 一 致 收 伊 的 ， 充 要 条 件 
是 条 件 
| | Karee dxdx >0 


对 于 所 有 满足 | 四 (dx < o H PO) 成 立 。 


函数 g;(x) 称 为 展开 的 特征 函数 ，》; 称 为 特征 值 。 所 有 的 特征 值 均 为 正 数 这 个 事实 意味 着 核 
K(x,x ) 是 正定 的 。 

根据 Mercer 定理 ， 我 们 有 如 下 的 结论 : 

。 对 于 和 ,zz1， 输入 向 量 x 在 特征 空间 中 诱导 出 的 第 i 个 像 / 和 Xp;(x) 是 一 个 展开 的 特征 
PAR. 
。 理论 上 ， 特 征 空 间 的 维 数 ( 即 特征 值 /特征 函数 的 数目 ) 可 以 是 无 穷 大 。 

Mercer 定理 仅 告诉 我 们 一 个 候选 核 是 不 是 一 个 在 某 个 空间 中 的 内 积 核 ， 从 而 允许 用 于 一 
个 支持 向 量 机 。 但 是 ， 它 并 没有 说 如 何 去 构造 函数 p;(x); 我 们 不 得 不 自己 来 做 。 

从 定义 式 (6.23) 可 以 看 出 ， 支 持 向 量 机 包含 一 种 隐 含 的 正则 化 形式 。 特 别 地 ， 使 用 根据 
Mercer 定理 定义 的 核 K(x,x ) 和 根据 算 子 D 进行 正则 化 对 应 ， 使 得 核 函 数 K(x,x ) 是 DD 
的 格林 函数 ， 其 中 五 是 D 的 伴随 算 子 (Smola and Schölkopf, 1998)。 正 则 化 理论 在 第 5 章 讨 
论 。 
支持 向 量 机 的 最 优 设计 


式 (6.36) 的 内 积 核 K(x,x;) 的 展开 式 允 许 我 们 建立 一 个 决策 面 ， 在 输入 空间 中 它 是 非 线 
性 的 ,但 它 在 特征 空间 的 像 是 线性 的 。 有 了 这 个 展开 式 ， 我 们 现 对 支持 向 量 机 受 约束 的 最 优 
化 的 对 偶 形式 陈述 如 下 : 


给 定 训练 样本 | (xd) 144, 寻找 最 大 化 目标 函数 
Qa) = Do -7 X DaoddkK,s) (6.40) 
的 Lagrange RF {a:l ， 满 足 约束 条 件 
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(1) Sad = 0 

Q0cacC i=12,N 
其 中 ，C 是 使 用 者 选 定 的 正 参 数 。 
注意 ， 约 束 (1) 由 Lagrange 函数 O lal Xt g(x) = 1 对 应 的 偏 置 = wm 的 最 优化 产生 。 这 里 陈 
述 的 对 偶 问题 与 在 6.3 节 中 考虑 的 不 可 分 模式 情况 的 形式 相同 ， 除 了 内 积 wx 被 内 积 核 
K(x, x ) 代 替 的 事实 。 我 们 可 以 把 K(x,,x,) SEE Nx N BIRER K 的 第 7 - 项 元 素 ， 
表示 为 

K = | Kx 5)G Da (6.41) 

在 找到 了 由 a,,; 表 示 的 Lagrange 乘 子 的 最 优 值 之 后 ， 我 们 可 以 确定 相应 的 线性 权 值 向 量 最 优 
值 w, ， 在 新 的 情况 下 它 改变 式 (6.17) 的 公式 联系 特征 空间 到 输出 空间 。 特 别 地 ， 认 识 到 像 
p(x, ) 从 输入 到 权 值 向 量 w 所 起 的 作用 ， 我 们 可 以 定义 w, 为 


Ww, = >), 4: P(x) (6.42) 
其 中 o(x, ) 是 x; 在 特征 空间 诱导 的 像 。 注 意 w, 的 第 一 个 分 量 表示 最 优 偏 置 六 。 
支持 向 量 机 的 例子 


核 K(x,x;) 的 要 求 是 满足 Mercer 定理 。 在 这 个 要 求 之 内 ， 怎 样 选择 它 是 有 一 定 自由 度 
的 。 表 6- 1 小 结 支持 向 量 机 的 三 个 普遍 类 型 的 内 积 核 函 数 ， 多 项 式 学 习 机 器 ， 径 向 基 函 数 网 
络 ， 两 层 感知 器 。 下 面 几 点 是 值 注意 的 : 


表 6-1 内 积 核 小 结 





支持 向 量 机 类 型 内 积 核 K(x,x;),i=1,2,…,N 评 OR 
多 项 式 学 习 机 Gr +1)? 指数 p 由 使 用 者 预先 指定 

径 向 基 函 数 网 络 exp( - 35 lx-x II?) 宽度 2 对 所 有 核 相同 ， 由 使 用 者 预先 指定 
两 层 感知 器 tanh xx; + Bi ) 只 有 一 些 特定 的 R, P 值 满足 Mercer 定理 


1. 用 于 支持 向 量 机 的 多 项 式 和 径 向 基 函 数 类 型 的 内 积 核 总 满足 Mercer €M, HARK, M 
于 支持 向 量 机 的 两 层 感知 器 的 类 型 ， 其 内 积 核 受 到 某 种 限制 ， 如 表 6-1 最 后 一 行 所 示 。 后 面 
的 条 目 证 实 如 下 的 事实 : 判定 一 个 给 定 的 核 是 否 符合 Merer 定理 确实 是 一 件 困 难 的 事情 ; 
见习 题 6.8。 
2. 对 所 有 三 种 机 器 类 型 ， 特 征 空 间 维 数 由 从 训练 数据 抽取 的 支持 向 量 的 个 数 决定 ， 这 
些 训练 数据 是 通过 解决 受 约束 最 优化 问题 来 获得 的 。 
3. 支持 向 量 机 的 基本 理论 避免 启发 式 的 需要 ， 它 们 常 被 用 在 传统 的 径 向 基 函 数 网 络 和 
多 层 感 知 器 的 设计 上 面 : 
。 在 径 向 基 函 数 类 型 的 支持 向 量 机 中 ， 径 向 基 函 数 的 数量 和 它们 的 中 心 分 别 由 支持 向 
量 的 个 数 和 支持 向 量 的 值 自 动 决定 。 . 
。 在 两 层 感 知 器 类 型 的 支持 向 量 机 中 ， 隐 藏 神经 元 的 个 数 和 它们 的 权 值 向 量 分 别 由 支 
持 向 量 的 个 数 和 支持 向 量 的 值 自动 决定 。 
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图 6-5 显示 一 个 支持 向 量 机 的 体系 结构 。 
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图 6-5 支持 向 量 机 的 体系 结构 


不 管 支持 向 量 机 是 怎样 实现 的 ， 基 本 上 它 是 不 同 于 传统 的 设计 多 层 感知 器 的 方法 。 在 传 
统 的 方法 里 ， 模 型 复杂 性 由 保持 特征 ( 即 隐藏 神经 元 ) 的 数量 最 小 所 控制 。 另 一 方面 ， 支 持 向 
量 机 提供 一 个 学 习 机 器 设计 的 解决 方案 ， 其 模型 复杂 性 的 控制 独立 于 维 数 ， 小 结 如 下 
(Vapnik, 1995 , 1998): 

。 概念 问题 。 有 意 使 特征 (隐藏 ) 空 间 的 维 数 足 够 大 ， 使 得 可 以 在 这 个 空间 建立 超 平面 
形式 的 决策 面 。 为 了 一 个 好 的 泛 化 性 能 ， 模 型 的 复杂 性 通过 对 所 建立 的 超 平面 添加 
一 些 特定 的 约束 条 件 来 控制 ， 这 导致 训练 数据 中 的 一 小 部 分 被 抽出 来 作为 支持 向 量 。 
计算 问题 。 在 高 维 空间 的 数值 最 优化 受到 维 数 灾 的 影响 。 通 过 使 用 一 个 内 积 核 (按照 
Mercer 定理 定义 ) 的 概念 ， 和 求解 在 输入 (数据 ) 空 间 用 形成 的 约束 最 优化 问题 的 对 偶 
形式 ， 避 免 计算 上 的 问题 。 


6.5 例子 : XOR 问题 (再 讨论 ) 


为 了 说 明 支 持 向 量 机 设计 过 程 ， 我 们 再 讨论 在 第 4 章 和 第 5 章 讨论 过 的 XOR( 蜡 或 ) 问 
题 。 表 6-2 给 出 了 4 个 可 能 状态 的 输入 向 量 和 期 望 的 响应 。 
表 6-2 XOR 问题 





输入 向 量 x 期 望 响 应 d 
(-1,-1) -1 
(-1,41) +1 
(+1,-1) +1 
(+1,4+1) -1 





为 了 进行 处 理 ， 令 (Cherkassky and Mulier, 1998) 


E 
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K(x,x,) = (1 + x’x,)’ (6.43) 
用 x=[xz] 和 x =[xa ,xwj]”， 因 而 内 积 核 K(x,x ) 可 应 用 不 同 次 数 的 单项 式 表示 如 下 : 
K(x,x;) = 14 xx + 2%, 2% Xa Xi + xaxa + 2x, %q + 230% 
输入 向 量 x 在 特征 空间 中 诱导 的 像 可 推断 为 
(x) = [1,x? W2%1 x2, x2 Wri V2, |" 
类 似 地 o(x,) = [1, x WN 2%, tasta WN 2K W2xp]7， i=1,2,3,4 
由 式 (6.41) 我 们 可 发 现 


9 
1 
K = 
1 
1 


一 m O 


1 
1 
1 
9 


=- OC =e 一 


因此 目标 函数 的 对 偶 形 式 为 (参看 式 (6.40) ): 
Q(a) = ay +m +% +- L Coo 一 2ao — 2a + 2a + 


9o + Zona; — 240 + 9 — 2a + 9) 
对 Lagrange 乘 子 优化 0(a) 产 生 下 列 联 立方 程 组 : 
9a, -a-t = 1 
-a + 9m +a, -a = 1 
-a +a +90, -q% = 1 
335 a ~ % ~ &% +94 = 1 
WIE, Lagrange EF WRAY 
1 


Mr = Qo2 = 0Qo3 = Ay = g 
这 个 结果 说 明 ， 本 例 中 所 有 4 MLA x, RERE, O(a) ROE 
Qla) = 4 
相应 地 ， 我 们 可 写 出 
Liw, la = 1 
2 e 4 
1 
或 Il w, || -= 万 


从 式 (6.42)， 我 们 发 现 最 优 权 值 向 量 是 
w= ii p(x) + Cm) + (x) - p(w )] 


1 1 1 1 0 
1 1 1 1 0 

1| | ¥2 | 1-y2| | -72| [v2 - 1/2 
=al] a [Ft oa tt} oa [Patil o 
-/2 -v2 V2 V2 0 


-4/24 L42 -V24 2 0 
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w, 的 第 一 个 分 量 表示 偏 置 5 为 0。 
最 优 超 平面 定义 为 (参看 式 (6.33)) 


wiq(x) = 0 
1 
2 
xy 
-1 V2%1 x 
Bp [o, 0, =, 0, 0 o] ， = 
2 Xa 
V2xi 
V2x， 
这 归结 为 —%,%, =0 


对 于 XOR 问题 的 多 项 式 形式 的 支持 向 量 机 见 图 6-6a。 Xt} x, = x= -1 Mx, =x, = +l, 
输出 y= ~1; Mx, = -1, m= +1UR&x,=4+1, m= -1, 输出 y= +o 因此 如 图 6-6b 
所 示 ，XOR 问题 获得 解 。 


x4 
Y =X 


v 





图 6-6 
a) 解 决 XOR 问题 的 多 项 式 机 器 b)XOR 问题 的 四 个 数据 点 在 特定 空间 导出 的 映像 


6.6 计算 机 实验 


在 这 个 计算 机 实验 中 ,我们 回 到 第 4 章 和 第 5 章 研究 过 的 模式 识别 问题 。 实 验 涉 及 两 个 
部 分 重 释 的 标记 为 16, 类 ) 和 标记 为 2(%, 类 ) 二 维 高 斯 分 布 的 分 类 。 这 两 个 数据 集 的 散 列 图 
可 以 见 图 4- 14。 用 Bayes( 最 优 ) 分 类 器 所 得 到 的 正确 分 类 的 概率 为 

p. = 81.15% 

表 6-3 给 出 利用 支持 向 量 机 对 这 个 数据 集 进 行 计 算 机 实验 所 获得 的 结果 的 小 结 。 对 于 内 
AUK, RIER T 42 ae 

K(x,x;) = exp| 一 了 x z | ) ， 

其 中 相同 的 宽度 o = 4 被 用 于 数据 集中 所 有 的 点 。 机 器 对 总 数 为 N = 500 的 数据 点 上 进行 训 
练 ， 这 些 数 据点 是 从 代表 这 两 个 类 的 数据 的 总 体 中 随机 抽取 的 。 用 于 正则 化 的 参数 C = 0.1。 

表 6-3 给 出 的 结果 是 从 5 次 不 同 的 实验 中 得 到 的 ， 对 于 每 次 试验 ， 都 采用 500 个 点 进行 
训练 ， 并 用 32 000 个 数据 点 进行 测试 。 这 五 次 试验 的 平均 正确 分 类 的 概率 是 81.40% ， 这 个 
平均 值 几乎 和 从 Bayes 分 类 器 得 到 的 相等 。 在 这 些 实验 的 一 次 实验 中 ， 最 优 结果 被 超出 了 


二 1,2,°…,N 
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0.05% ， 这 是 由 于 试验 误差 产生 的 。 
表 6-3 使 用 支持 向 量 机 的 两 类 模式 分 类 试验 结果 小 结 
共同 宽度 =4， 正 则 化 参数 C =0.1 





正确 分 类 的 概率 p 81.22 81.28 81.55 81.49 81.45 
支持 向 量 数 日 As 298 287 283 287 286 
这 个 由 支持 向 量 机 获得 的 近 平 完美 的 a TEE. 

分 类 结果 由 图 6-7 所 示 的 决策 边界 进一步 4 | 最 优 
确定 ， 这 个 图 是 由 这 五 次 机 器 的 实现 中 随 | Bi hia 
机 挑 出 的 一 次 得 到 的 。 在 这 个 图 中 Bayes A 


分 类 器 的 决策 边界 也 包括 在 内 ， 边界 是 由 
一 个 贺 构 成 的 ， 圆心 是 x, =1 - 23,0)", 
半径 是 7 = 2.34. Al 6-6 清楚 显示 支持 向 
量 机 可 以 构造 类 %@, MAS, 间 的 决策 边界 
使 得 它 几 乎 和 最 优 决策 边界 相同 。 

让 我 们 回 到 表 6-3 给 出 的 实验 结果 的 
小 结 ， 第 二 行 显示 支持 向 量 机 的 5 个 不 同 











实现 的 大 小 。 这 些 结果 表示 对 于 这 个 试 Faaa asa S 
验 ， 支 持 向 量 机 学 习 算 法 选择 了 将 近 60% 
的 数据 点 作为 支持 向 量 。 图 6-7 ”模式 分 类 计算 机 实验 的 决策 面 


对 于 不 可 分 离 的 模式 ， 所 有 训练 误差 
导致 它们 自身 的 支持 向 量 ， 这 是 从 Kuhn-Tucker 条 件 得 到 的 。 对 于 目前 的 实验 ， 误 差 率 约 为 
20% 。 对 于 一 个 大 小 为 500 的 样本 ， 我 们 发 现 大 约 1/3 的 支持 向 量 事实 上 是 由 于 分 类 误差 而 
产生 的 。 

简 评 

比较 这 个 建立 在 支持 向 量 机 基础 上 的 简单 计算 机 实验 的 结果 ， 和 4.8 节 报告 的 在 多 层 感 
知 器 上 对 同一 个 数据 样本 采用 误差 反 向 传播 算法 进行 训练 产生 的 相应 结果 ， 我 们 可 以 得 出 以 
下 结论 ; 

1. 对 于 感 兴趣 的 问题 ， 支 持 向 量 机 具有 以 接近 最 优 的 方式 解决 模式 分 类 问题 的 固有 能 
力 。 此 外 ， 它 能 获得 如 此 显著 的 性 能 而 无 需 在 机 器 的 设计 中 嵌入 问 题 域 知识 。 

2. 另 一 方面 ， 利 用 反 向 传 所 算法 训练 的 多 层 感知 器 提供 模式 分 类 问题 的 计算 高 效 的 解 。 
对 这 里 措 述 的 两 类 实 验 ， 我 们 能 够 利用 仅 用 两 个 隐藏 神经 元 的 多 层 感 知 器 达到 79.70% 的 正 
确 分 类 概率 。 

在 做 这 个 简 评 中 ， 我 们 突出 了 模式 分 类 的 这 两 种 方法 各 自 的 优点 。 但 是 ， 为 了 得 到 公允 
的 评论 我 们 必须 确认 它们 各 自 的 缺点 。 在 支持 向 量 机 的 情况 ， 近 乎 完美 的 分 类 性 能 是 付出 和 
大 计算 复杂 性 代价 而 取得 的 。 另 一 方面 ， 对 利用 反 向 传播 算法 训练 多 层 感知 器 对 同一 模式 分 
类 任务 ， 要 达到 和 支持 向 量 机 差不多 的 性 能 ， 必 须 做 两 件 事 ; 在 感知 器 的 设计 中 建立 问题 领 
域 的 知识 ， 以 及 调整 大 量 的 设计 参数 ， 对 于 困难 学 习 任 务 这 是 令 人 头痛 的 实践 。 
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6.7 ce- TERKA 


到 目前 为 止 ， 本 章 集 中 于 利用 支持 向 量 机 求解 模式 识别 任务 。 现 在 ， 我 们 考虑 利用 支持 
向 量 机 求解 非 线 性 回归 问题 。 为 了 准备 这 个 讨论 ， 我 们 首先 讨论 适合 这 类 学 习 任 务 的 最 优化 
准则 问题 。 

在 第 4 章 关 于 多 层 感知 器 和 第 5 章 关 于 径 向 基 消 数 网 络 的 讨论 中 ,我 们 利用 二 次 损失 函 
数 作 为 这 些 网 络 的 优化 准则 。 利 用 这 个 准则 的 主要 原因 是 数学 上 的 ， 即 为 了 计算 上 的 方便 。 
但 是 ， 最 小 二 乘 估计 器 对 异常 点 (outier)( 即 对 于 一 个 微小 模型 得 到 异常 大 的 观察 ) 的 出 现 非 
常 敏感 ， 并 且 当 加 性 噪声 的 固有 分 布 有 很 长 的 尾部 时 它 表现 很 差 。 为 了 克服 这 些 局 限 ， 我 们 
需要 一 种 鲁 棒 的 估计 器 ， 它 对 模型 小 的 改变 不 敏感 。 

以 鲁 棒 性 作为 设计 目标 ， 对 于 任何 鲁 棒 性 的 数值 度量 必须 考虑 到 由 于 微小 噪声 模型 的 一 
个 se- 偏差 而 可 能 产生 最 大 性 能 退化 。 根 据 这 种 观点 ， 一 种 最 优 便 棒 估 计 过 程 是 最 小 化 最 大 
的 性 能 恶化 ， 因 而 是 一 种 最 小 最 大 过 程 (Huber,1981)。 当 加 性 噪声 的 概率 密度 函数 关于 原点 
对 称 时 ,求解 非 线性 回归 问题 的 最 小 最 大 过 程 外 利用 绝对 误差 作为 被 最 小 化 的 量 (Huber,， 
1964)。 也 就 是 说 ， 损 失 函 数 具 有 形式 

L(d,y) =|d-yl (6.44) 

其 中 d 是 期 望 响应 而 y 是 估计 器 输出 

为 了 构造 支持 向 量 机 逼近 期 望 的 响应 4， 我 们 利用 式 (6.44) 的 损失 函数 的 扩展 ， 它 由 
Vapnik(1995 ,1998) 最 早 提出 ， 这 里 可 描述 为 

|\d-yl-e, WFid-ylee 
Lean) = fh 其 他 

其 中 是 指定 的 参数 ， 损 失 函 数 Ld, y ) 称 为 s- KH L.(d,y) 
感 损失 函数 (s-insensitive loss function)。 如 果 佑 计 器 输出 
y 和 期 望 输出 a 的 偏 益 的 绝对 值 小 于 s， 则 它 等 于 零 ， 
否则 它 等 于 偏差 绝对 值 减 去 s。 式 (6.44) 的 损失 函数 是 
e- MIRIA RATE e= 0 时 的 特殊 情形 ， 图 6- 8 说 明 
L.(d,Y) 和 误差 d- y 的 依赖 关系 。 -8 0 te d-y 


6.8 用 于 非 线性 回归 的 支持 向 量 机 图 6-8 。- 不 敏感 损失 函数 


考虑 非 线性 回归 模型 ， 标量 d 对 向 量 x 的 依赖 可 描述 为 
d = f(x) +0 (6.46) 
标量 值 非 线性 函数 f(x) 定 义 为 在 第 2 BCMA ELDix]; D 是 一 个 随机 变量 ， 它 的 一 
次 实现 记 为 d。 加 性 噪声 项 v 是 统计 独立 于 输入 向 量 x A, BRS) ARS "的 统计 特性 是 
未 知 的 。 我 们 所 有 可 用 的 信息 就 是 一 组 训练 数据 i (x;, dM, SEP x, 是 输入 向 量 x 的 一 个 
ESE, di 是 模型 输出 d 的 相应 值 。 问 题 是 提供 d 对 x 的 依赖 的 估计 。 
进一步 我 们 假设 d 的 估计 记 为 y， 它 是 由 一 组 非 线 性 基 函 数 |9,(x)1 "的 展开 得 到 的 : 


(6.45) 


y = Dy wp (x) = w'@(x) (6.47) 
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其 中 Pa) = [qm (x) ,PICX) Pr (x) ]” 
和 w= [wows Wy, 了 
和 以 前 一 样 假定 mw(x) = 1， 这 样 权 值 w 表示 偏 置 5。 需 求解 的 问题 是 最 小 化 经 验 风险 
Rew = 广 Day) (6.48) 
满足 不 等 式 l 
lwl? sc (6.49) 


其 中 co 是 常数 。s - 不 敏感 损失 函数 L.(d,y,) 在 前 面 式 (6.45) 中 定义 我们 可 以 引入 两 组 非 
负 的 松弛 变量 |& | 六, 和 |&,| 计 ,重新 表示 这 个 约束 最 优化 问题 ， 松 弛 变量 定义 为 : 


d;i - w'@(x,) <e+&, i= 1,2,°°,N (6.50) 
wo(x,) - d, <e+8,, i= 1,2,°°,N (6.51) 
& 20,1 = 1,2,.…,N (6.52) 
&, >0,i = 1,2,-°,N (6.53) 


松弛 变量 E; 和 总 描述 式 (6.45) 定 义 的 e - 不 敏感 损失 函数 。 因 此 ， 这 个 约束 最 优化 问题 等 
价 于 最 小 化 代价 泛 函 


P(w,&, ë?) = cf IG + &, JES aw w (6.54) 


满足 式 (6.50) 至 (6.53) 的 约束 条 件 。 结 合 在 式 (6.54) 的 泛 函 B(w,&,& ) 中 的 项 wrw/2， 我 们 
不 需要 式 (6.49) 的 不 等 式 约 束 。 在 式 (6.54) 中 的 常数 C 是 用 户 给 定 的 参数 。 从 而 ， 我 们 可 以 
定义 Lagrange 函数 


J(w, 8,8 dy) = CNG, + 名) + 了 wrw - Sail Ww q(x) - di +£ +£] - 


Siela, 一 w’ (x, ) +E+ &, ] 一 Sve, + YZ.) 
i=l i=l 


(6.55) 
其 中 a 和 a, 是 Lagrange 乘 子 。 式 (6.55) 右 边 最 后 一 项 涉及 y;, 和 YY, 是 为 了 确保 Lagrange W 
Fan di 的 最 优 性 条 件 成 为 可 变形 式 。 要 求 对 w 和 松弛 变量 和 最 小 化 J(w,&,8 0,05, 
Y); 同时 也 必须 对 ui ,a MYY: 最 大 化 它 。 求 解 这 个 最 优化 ， 我 们 分 别 有 


we D(a - a; p(x; ) (6.56) 
¥, = C-a, (6.57) 
和 Y,=C-d; (6.58) 


刚才 描述 的 J(w,&,& ,a,a ,Y,Y ) 最 优化 是 回归 的 原 问 题 。 为 了 构造 相应 的 对 偶 问 题 ， 我 们 
将 (6.56) 至 (6.58) 代 入 (6.55) 中 ， 从 而 得 到 凸 泛 函 (经 过 化 简 之 后 ) 


O(ai ai) = Dy dio -d,)-e > (a +a;)- 
| aa 5 (6.59) 
TO Os = a) KO ,X;) 
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其 中 K(x; ,XX ) 是 按照 Mercer 定理 定义 的 内 积 核 
天 (Xi Xi) = 9" (x; )@(x;) 
我 们 得 到 约束 最 优化 问题 的 解 是 在 对 Lagrange FEF a; Mla’; 最 大 化 Qla d ) 得 到 的 ， 这 两 个 乘 
子 满足 加 入 常数 C 的 一 组 新 的 约束 条 件 ， 其 中 C 包含 在 式 (6.54) 的 函数 OCW, £2 ) 的 定义 中 。 
我 们 现在 可 以 陈述 利用 支持 向 量 机 的 非 线性 回归 的 对 偶 问 题 如 下 : 


给 定 训练 样本 | (x， di) Xais FA Lagrange KF |o; SN Feld |X PARAMS BK 
Oa.) = Baila, a.) -€ NC 1) ED Sa, =a Noy = KK) 
满足 约束 条 件 


WOH ~a@;) =0 
oc, <C,i=1,2,°°,N 
O<d,<C,i=1,2,° N 


其 中 C 为 用 户 给 定 的 常数 。 


Lagrange 函数 最 优化 问题 中 ， 对 于 g(x) = 1 的 偏 置 = wo 产生 约束 条 件 (1)。 因 此 ， 获 
得 最 优 的 a; 和 vi; 的 值 后 ， 对 给 定 的 映射 p(x) 我 们 可 以 利用 式 (6.56) 确 定 权 值 向 量 w 的 最 优 
值 。 注 意 和 模式 识别 问题 的 解 一 样 ， 在 式 (6.56) 的 展开 中 仅 有 一 些 系 数 不 为 零 ， 特 别 ，a 
a; 对 应 的 数据 点 定义 为 机 器 的 支持 向 量 。 

e 和 C 是 控制 逼近 函数 


Poom = wx = Dla, — oi) K(x, x; ) (6.60) 


VC 维 数 的 自由 参数 。。 和 C 两 者 都 必须 由 用 户 选择 。 从 概念 上 讲 ， e 和 C 的 选择 提出 和 模 
式 分 类 中 参数 C 的 选择 同样 的 复杂 性 控制 问题 。 但 是 ,实际 上 回归 的 复杂 性 控制 是 一 个 更 
困难 的 问题 ， 这 是 由 于 下 列 原因 : 

。 参数 。 和 C 必须 同时 调整 。 

。 回归 本 质 上 上 比 模式 分 类 更 困难 。 
es 和 C 选择 的 原则 方法 一 直 是 一 个 未 解决 的 研究 领域 。 

最 后 ， 和 用 于 模式 识别 的 支持 向 量 机 一 样 ， 用 于 非 线性 回归 的 支持 向 量 机 可 以 用 多 项 式 
项 学 习 机 、 径 向 基 晃 数 网 络 或 两 层 感 知 器 实现 。 三 种 实现 方法 的 内 积 核 在 表 6-1 中 给 出 。 


6.9 小 结 和 讨论 


支持 向 量 机 是 为 了 设计 仅 含有 一 个 非 线 性 单元 隐藏 层 的 前 馈 网 络 的 一 种 精巧 和 高 度 原 则 
化 的 学 习 方法 。 它 由 植 根 于 VC 维 理论 的 结构 风险 最 小 化 原则 导出 ， 这 一 点 使 得 它 的 推导 更 
加 深奥 。 正 如 它 的 名 字 所 揭示 的 ， 机 器 的 设计 随 抽取 训练 数据 的 子 集 作 为 支持 向 量 而 定 ， 因 
而 代表 数据 的 一 个 稳定 特征 。 支 持 向 量 机 包括 多 项 式 学 习 机 器 、 径 向 基 函 数 网 络 和 两 层 感知 
器 作为 其 特殊 情形 。 因 此 ， 虽 然 这 些 方法 提供 训练 数据 的 内 在 统计 规则 的 不 同 的 表示 ， 但 是 
它们 都 源 于 支持 向 量 机 设置 的 一 个 共同 基础 。 

与 流行 的 反 向 传播 算法 不 同 ， 支 持 向 量 学 习 算 法 仅仅 按 集中 方式 进行 。 这 两 个 算法 存在 
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另 一 个 重要 差别 。 反 向 传播 算法 不 管 学 习 任 务 是 什么 都 最 小 化 一 个 二 次 损失 函数 。 相 反 ， 用 
于 模式 识别 的 支持 向 量 机 学 习 算 法 和 用 于 非 线 性 回归 有 很 大 区 别 ， 如 下 所 述 : 
。 当 完 成 模式 识别 任务 时 ， 支 持 向 量 学 习 算 法 最 小 化 落 在 正 例 和 反例 分 离 边 缘 内 的 训 
练 样本 数目 ; 这 只 是 近似 对 的 ， 因 为 使 用 松弛 变量 8 百代 指标 函数 1(&, - 1)。 虽 然 
这 个 准则 和 最 小 化 分 类 误差 的 概率 不 完全 一 样 ， 但 是 它 被 认为 比 反 向 传播 学 习 算法 
的 均 方 误差 准则 更 适合 。 
。 当 完 成 非 线性 回归 任务 时 ， 支 持 向 量 学 习 算法 最 小 化 的 s - 不 敏感 损失 函数 是 最 小 
最 大 理论 的 平均 绝对 误差 准则 的 一 种 推广 。 因 此 算法 为 鲁 棱 性 的 。 

不 管 学 习 任务 是 什么 ， 支 持 向 量 机 提供 一 种 独立 于 维 数 的 控制 模型 复杂 性 的 方法 。 特 别 
地 ， 利 用 定义 在 特征 (隐藏 ) 空 间 的 惩罚 超 平面 作为 决策 面 ， 模 型 的 复杂 性 问题 在 高 维 空 间 中 
得 到 解决 ， 结 果 有 很 好 的 泛 化 性 能 。 通 过 把 处 理 约束 最 优化 问题 集中 于 其 对 偶 问题 ， 绕 过 维 
数 灾 的 困难 。 利 用 对 偶 设置 的 一 个 重要 原因 就 是 避免 在 数据 空间 中 定义 和 计算 可 能 的 高 维 数 
最 优 超 平面 的 参数 。 

通常 支持 向 量 机 的 训练 包含 一 个 二 次 规划 问题 5 ， 这 个 问题 由 于 两 个 原因 而 有 吸引 力 ; 

。 它 保 证 找到 误差 曲面 的 全 局 极 值 点 ， 在 这 里 误差 是 指 期 望 响应 和 支持 向 量 机 输出 之 

间 的 差异 。 

。 计算 可 以 被 有 效 的 执行 。 

最 重要 的 是 ， 通 过 使 用 一 个 恰当 的 内 积 核 ， 支 持 向 量 机 可 以 根据 内 积 核 的 选择 自动 计算 
所 有 重要 的 网 络 参数 。 例 如 ， 在 径 向 基 函 数 网 络 的 情形 ， 核 函数 是 Gauss 函数 ， 对 于 这 种 实 
现 方法 ， 径 向 基 函 数 的 数目 和 它们 的 中 心 ， 以 及 线性 权 值 和 偏 置 水 平 ， 都 是 自动 计算 的 。 径 
向 基 函 数 的 中 心 由 二 次 优化 策略 挑选 的 支持 向 量 定义 。 支 持 向 量 通常 是 由 训练 样本 组 成 的 样 
本 总 体 的 一 部 分 。 因 此 我 们 可 以 将 利用 支持 向 量 机 学 习 过 程 所 得 到 的 RBF 网 络 的 设计 ， 看 
作 前 一 章 描 述 的 使 用 严格 插值 策略 得 到 的 设计 结果 的 一 种 稀 政 性 版 本 。 

可 以 用 几 个 商用 的 最 优化 库 四 求解 二 次 规划 问题 。 但 是 ， 这 些 库 的 使 用 受到 限制 。 对 于 
二 次 规划 问题 的 存储 需求 随 着 训练 样本 的 大 小 平方 地 增长 。 从 而 对 现实 生活 中 可 能 涉及 几 千 
个 数据 点 的 应 用 问题 ， 直 接 利用 商用 最 优化 库 不 能 求解 二 次 规划 问题 。Osuna et al.(1997) 已 
经 发 展 了 一 种 新 的 分 解 算法 ， 通 过 求解 一 系列 更 小 的 子 问题 取得 最 优 解 。 特 别 地 ， 分 解 算法 
利用 支持 向 量 的 系数 仅 在 由 a; =0 或 = C 定义 的 边界 的 一 边 起 作用 的 这 个 特点 。 在 那里 报 
告 了 分 解 算法 能 够 对 具有 100 000 个 数据 的 应 用 给 出 满意 的 结果 。 

至 于 运行 时 间 ， 当 前 支持 向 量 机 在 类 似 的 泛 化 性 能 上 比 其 他 神经 网 络 ( 例 如 用 反 向 传播 
算法 训练 的 多 层 感知 器 ) 慢 。 有 两 个 原因 导致 这 样 慢 的 行为 : 

1. 对 于 由 学 习 算 法 挑选 的 用 作 支 持 向 量 的 数据 点 总 数目 没有 控制 。 

2. 没有 预先 将 任务 的 先 验 知识 合并 到 学 习 机 器 的 设计 中 。 
现在 简要 讨论 为 了 克服 这 些 缺 点 而 对 支持 向 量 机 进行 的 修改 。 

怎样 控制 支持 向 量 的 选择 是 一 个 困难 的 问题 ， 特 别 是 在 待 分 类 的 模式 为 不 可 分 的 且 训 | 练 
数据 有 噪声 时 。 一 般 地 ， 试 图 在 训练 前 从 数据 中 消除 已 知 误差 或 在 训练 之 后 从 展开 中 消除 它 
们 ,将 给 出 不 同 最 优 超 平面 ， 这 是 因为 惩罚 不 可 分 性 需要 误差 。 在 Osuna and Girosi (1998) 的 
文章 中 ， 研 究 了 减少 用 于 模式 识别 的 支持 向 量 机 的 训练 时 间 。 处 理 这 个 问题 的 两 个 新 方法 描 
述 如 下 : 
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。 支持 向 量 机 用 作 非 线性 回归 的 工具 ， 以 用 户 给 定 精 度 逼 近 决 策 面 (分 离 不 同类 )。 

。 重新 调整 训练 支持 向 量 机 的 过 程 ， 利 用 更 小 数目 的 基 函 数 产生 同样 精确 的 决策 面 。 

在 第 一 种 方法 中 ， 利 用 基 函 数 的 一 个 子 集 的 线性 组 合 有 逼近 解 ， 得 到 的 机 器 是 用 于 函数 表 
近 的 支持 向 量 机 的 自然 推广 。 设 计 这 个 推广 的 目标 是 寻找 下 列 形式 的 代价 泛 函 的 最 小 值 : 


ECF) = D) Idi- F(x) h + WF) 


其 中 F( ) 是 逼近 函数 ， 亚 (: ) EIR IER, Ixl A e- 不 敏感 代价 函数 ， 定 义 为 
benef? Blaxlt<e 
° lxl-e 否则 
se- 不 敏感 代价 函数 具有 使 解 对 奇异 点 是 鲁 棒 的 且 对 小 于 阔 值 s 的 误差 不 敏感 的 作用 。 代 价 
Zeke ( F) Wie MARA 


F(x) = > c;G(x,x; ) 


i=] 
的 形式 ， 其 中 核 C(' ) 依 赖 于 光滑 度 泛 函 TO ) 的 特殊 选择 ， 并 且 通 过 求解 一 个 二 次 规划 问 
题 计 算 系 数 c,。 解 一 般 是 稀疏 的 ;， 那 就 是 ， 只 有 少数 。; 不 为 零 ， 非 零 的 数目 由 参数 e 控制。 
在 第 二 种 方法 中 ， 原 问题 被 重新 表示 为 和 最 初 的 原 问 题 有 相同 的 初始 结构 ， 但 有 一 个 区 别 : 
ARK K(x,x ) 结 合 进 新 的 表示 中 。 这 两 种 方法 也 适用 于 减少 非 线 性 回归 的 支持 向 量 机 的 复 
杂 性 。 

最 后 ， 转 到 先 验 知识 的 问题 ， 人 们 广泛 认识 到 在 机 器 设计 中 通过 结合 任务 的 先 验 知识 可 
以 提高 学 习 机 器 的 性 能 (Abu-Mostafa,1995)。 一 般 地 ， 在 文献 中 已 经 研究 两 种 不 同 的 利用 先 
验 知识 的 方法 : 

。 在 代价 函数 中 包含 一 个 附加 项 ， 从 而 强迫 学 习 机 器 构造 一 个 加 入 先 验 知识 的 函数 。 

这 正 是 利用 正则 化 所 做 的 事情 。 
。 从 已 给 训练 样本 中 产生 虚拟 样本 。 这 里 的 动机 是 学 习 机 器 从 人 工 扩 大 的 训练 集 数据 
中 更 容易 抽取 先 验 知 识 。 

在 第 二 种 处 理 方 法 中 ， 由 于 人 工 数据 的 相关 性 和 训练 数据 集 的 增 大 ， 学 习 过 程 可 能 变 
慢 。 但 是 第 二 种 方法 比 第 一 种 方法 有 一 个 优点 ， 那 就 是 对 于 所 有 的 先 验 知识 和 学 习 机 器 ， 它 
很 容易 被 实现 。 第 二 种 方法 的 实现 方式 可 进行 如 下 (Schalkopf et al. , 1996): 

1. 按 通常 方法 对 给 定数 据 训 练 支持 向 量 机 ， 抽 取 一 组 支持 向 量 。 

2. 对 第 1 步 获 得 的 支持 向 量 ， 通 过 以 期 望 的 不 变性 变换 形式 应 用 先 验 知识 ， 生 成 称 为 
虚拟 支持 向 量 的 人 工 样 本 。 

3. 对 人 工 增 大 的 样本 集训 练 另 一 个 支持 向 量 机 。 

这 个 方法 具有 以 适度 的 时 间 代价 获得 分 类 精度 显著 增加 的 优点 : 它 需 要 两 轮训 练 而 不 是 
一 轮训 练 ， 但 它 利用 更 多 的 支持 向 量 构造 分 类 规则 。 


注释 和 参考 文献 


[1] SCAR 的 一 个 子 集 ， 子 集 @ 说 是 凸 的 ， 如 果 
ax+(l-ayE€E® 对 所 有 (x,y) E€ 和 a € [0,1] 
函数 f: CR ieee wR, OR 


[9] 
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[2] 


[3] 


[4] 


习题 


flax + (l-a)y) < af(x) + (1 -a)fly) MTA ( +, y) E GMa € [0,1] 

以 计算 复杂 性 作为 感 兴趣 的 问题 ， 我 们 可 以 确认 算法 的 两 种 类 型 : 

。 多 项 式 时 间 算法 ， 它 要 求 的 运行 时 间 是 问题 大 小 的 多 项 式 函数 。 例 如 ， 通 常用 于 谱 
分 析 的 快速 Fourier 变换 (FFT) 算 法 ， 是 多 项 式 时 间 算法 ， 它 需要 运行 时 间 为 nlogn， 
其 中 n 为 问题 的 大 小 。 

。 指数 时 间 算 法 ， 它 要 求 运行 时 间 是 问题 大 小 的 指数 函数 。 例 如 ， 一 个 指数 时 间 算 法 
可 能 花费 时 间 2*， 其 中 n 为 问题 大 小 的 度量 。 

基于 此 ， 我 们 可 以 将 多 项 式 时 间 算 法 看 作 “ 有 效 ” 算 法 ， 而 指数 时 间 算 法 看 作 “ 无 
效 " 算 法 。 

对 实际 中 出 现 的 许多 起 计算 问题 ， 迄 今 为 止 仍 没有 设计 出 有 效 算法 。 如 果 不 是 所 
有 的 至 少 也 是 许多 这 些 看 起 难 解 的 问题 属于 称 为 NP 完全 问题 的 一 类 问题 。 术 语 “NP” 
代表 “ 非 确定 多 项 式 ”(Nondeterministic Polynomial) 。 

关于 NP 完全 问题 的 更 详细 讨论 可 参看 Cook (1971)，Garey and Johnson (1979) 和 
Cormen et al.(1990) 。 
在 Aizerman et al.(1964a,1964b) 中 首次 利用 内 积 核 的 思想 构造 势 函数 方法 的 公式 ， 势 函数 
代表 径 向 基 范 数 网 络 的 前 身 。 几 乎 在 同一 时 间 ，Vapnik and Chervonenkis(1965) 发 展 最 优 超 
平面 的 思想 。 构 成 支持 向 量 机 的 这 两 个 有 力 概念 的 组 合 使 用 是 Vapnik 及 合作 者 1992 年 提 
从 的 ; Æ% Boser, Guyon and Vapnik(1992) 以 及 Cortes and Vapnik(1995)。 支 持 向 量 机 的 完 
全 数学 描述 首先 在 Vapnik(1995) 中 给 出 ， 随 后 在 Vapnik(1998) 中 以 扩展 形式 给 出 。 
Huber 的 最 小 最 大 化 理论 的 基础 是 邻 域 ,这些 邻 域 由 于 不 包含 非 对 称 分 布 ， 因 此 不 是 全 
局 的 。 但是， 这 个 理论 成 功 解决 了 一 大 部 分 传统 的 统计 学 问题 ， 特 别 的 是 回归 问题 。 
在 Schurmars(1997) 中 ,利用 线性 规划 探讨 使 用 L 范 数 上 w 1,， 替 代 在 支持 向 量 机 中 使 
FAA) L ZR iwi, RAAB wh L 范 数 定义 为 

Iwi = Dw 

其 中 w, wi i SCR, AA L 范 数 的 最 大 分 类 边界 看 上 去 偏向 超 平面 坐标 轴 的 
方向 ， 也 就 是 偏向 权 值 向 量具 有 很 少 非 零 元 素 的 方向 。 
二 次 规划 的 商用 库 包 括 下 列 的 软件 : 

。 MINOSS.4: (Murtagh and Saunders, 1978) 

。 LSSOL(Gill et al. ,1986) 

* LOQO( Vanderbei, 1994) 

。 QPOPT and SQOPT(Gill and Murray, 1991) 


最 优 分 离 超 平面 


6.1 考虑 用 于 线性 可 分 模式 的 超 平面 ， 它 由 方程 


wx+b=0 


定义 为 ， 其 中 w 表示 权 值 向 量 ， 为 偏 置 ，x 为 输入 向 量 。 如 果 输 入 模式 集 |x, 过 ,满足 附加 
的 条 件 
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min |wx,+b/=1 
则 称 超 平面 对 应 于 标准 对 (canonical pair)(w, 5)。 证 明 标 准 对 的 这 个 要 求 导致 两 类 分 离 边 界 
之 间 的 距离 为 2/ wl 

6.2 在 不 可 分 类 模式 的 背景 下 判断 下 列 陈述 : 错 分 类 意味 着 模式 的 不 可 分 性 ， 但 相反 
则 未 必 真 。 

6.3 ”以 不 可 分 模式 的 分 离 超 平面 的 最 优化 作为 原 问 题 的 开始 ， 构 造 如 6.3 节 描 述 的 对 
偶 问题 的 公式 。 

6.4 在 本 题 中 ， 利 用 在 第 4 章 讨论 的 “ 留 一 法 ”估计 不 可 分 模式 的 最 优 超 平面 产生 的 期 
望 测试 误差 。 通 过 删除 训练 样本 中 任意 一 个 模式 并 且 根 据 剩 下 的 模式 构造 一 个 解 ， 讨 论 使 用 
这 种 方法 可 以 引发 的 各 种 可 能 性 。 

6.5 数据 空间 中 最 优 超 平 面 的 位 置 由 被 选 为 支持 向 量 的 数据 点 决定 。 如 果 数 据 有 了 噪声， 
人 们 的 第 一 反应 也 许 是 质疑 分 离 边界 对 噪声 的 鲁 棒 性 。 但 对 最 优 超 平面 的 详细 研究 揭示 分 离 
边界 对 噪声 实际 上 是 鲁 棒 的 。 讨 论 这 种 鲁 棒 性 的 根据 。 
内 积 核 

6.6 内 积 核 K(x; ,x ) 是 在 训练 N 个 样本 集 了 上 计算 的 ， 它 产生 N x N 矩阵 ; 

K = [Kyi yes 
其 中 K; = K(x; ,xX)。 由 于 它 的 所 有 元 素 的 值 为 正 ， 和 矩阵 K 是正 的 。 利 用 相似 变换 
K = QAQ’ 

其 中 A 为 特征 对 角 和 矩阵 ， 而 Q 为 相应 特征 向 量 构成 的 第 阵 ， 通 过 K 的 特征 值 和 特征 向 量 构 
EARI K(x, ,x ) 的 表达 式 。 你 可 以 从 这 个 表达 式 得 出 什么 结论 ? 

6.7 (a) 证 明 内 积 核 K(x,x;) 的 西 不 变性 ， 即 

K(x,x;) = 天 (Qx,Qxi) 

其 中 Q 为 本 矩阵 定义 为 Q =Q" 

(b) 证 明 表 6-1 中 描述 的 内 积 核 满足 这 个 性 质 。 

6.8 两 层 感知 器 的 内 积 核定 义 为 

K(x,x,) = tanh(Q)x’x; + B) 

探讨 对 常数 B 和 B 的 某 些 值 不 满足 Mercer 定理 。 
模式 分 类 

6.9 用 于 求解 XOR 问题 的 多 项 式 学 习 机 使 用 的 内 积 核定 义 为 

K(x,x;) = (1 + x’x,)? 

解 XOR 问题 的 指数 p 的 最 小 值 是 多 少 ? 假定 p 为 正 整 数 。 使 用 比 最 小 值 大 的 p 值 会 出 现 什 
么 结果 ? 

6.10 图 6-9 表示 三 维 模式 x 上 运算 的 XOR 函数 ， 描 述 为 

XOR(x ,%25%3) = x1 OD x ® x; 
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示 的 两 类 点 。 
6.11 在 整个 这 一 章 中 我 们 讨论 利用 支持 向 量 机 进行 二 分 类 。 讨 论 支持 向 量 机 如 何 解 决 
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M 类 模式 分 类 的 问题 (M > 2). 
非 线 性 回归 
6.12 在 6.8 节 描述 的 利用 支持 向 量 机 求解 非 线 性 回归 问题 的 对 偶 问 题 ， 包 括 约 束 条 件 


D(a 一 a’; ) = 0 

其 中 w 和 a, 为 Lagrange 乘 子 。 证 明 这 个 约束 条 件 从 对 偏 置 b 最 小 化 Lagrange 函数 而 得 到 ， 
即 对 应 于 p(x) = 1 的 权 值 向 量 w 的 第 一 个 元 素 wo 
优点 和 局 限 

6.13 (a) 就 下 列 任务 比较 支持 向 量 机 和 径 向 基 哺 数 (RBF) 网 络 的 优点 和 局 限 : (1) 模 式 
分 类 ，(2) 非 线性 回归 。 

(b) 对 于 支持 向 量 机 和 利用 反 向 传播 算法 训练 的 多 层 感知 器 作 同 样 比较 。 
计算 机 试验 

6.14 图 6- 10 表示 两 个 类 @, 和 %, 的 一 组 数据 点 。 两 个 坐标 轴 x, 和 x. 的 范围 都 为 -1 
到 + 1。 利 用 径 向 基 消 数 核 

K(x,t) = exp(— ||x- tl’) 

对 这 个 数据 集 构造 最 优 超 平面 。 


x2 


> , 





X3 
E 6-9 图 6-10 


6.15 在 6.6 节 描述 的 计算 机 实验 是 为 了 对 两 类 部 分 重生 的 Gauss 分 布 进行 分 类 。 用 于 
这 个 实验 的 正则 化 参数 是 C = 0.1。 用 于 构造 内 积 核 函数 的 径 向 基 函 数 的 共有 宽度 为 of = 4。 
对 于 以 下 的 两 个 正则 化 参数 重复 那 一 节 中 提 到 的 计算 机 实验 : (a)C =0.05，(b)C=0.2。 根 
据 6.6 节 报 告 的 结果 评论 你 的 结果 。 

6.16 在 用 径 向 基 函 数 网 络 求解 非 线性 回归 问题 时 ， 经 常 发 现 用 多 二 次 函数 之 类 的 非 局 
部 基 函 数 比 用 Gauss 肾 数 之 类 的 局 部 基 沙 数 导 致 更 高 精度 解 。 对 支持 向 量 机 可 能 猜想 会 出 现 
类 似 的 结果 ， 因 为 利用 (无 界 ) 多 项 式 学 习 机 可 证 明 比 (有 界 ) 径 向 基 函 数 机 器 有 更 高 精度 。 对 


模式 分 类 问题 用 计算 机 实验 探讨 这 个 推测 的 正确 性 。 





第 7 章 ”委员 会 机 器 


7.1 简介 


在 前 面 三 章 ， 我 们 描述 三 种 不 同 的 监督 学 习 方法 。 在 第 4 章 ， 讨论 由 反方 向 传播 算法 训 
练 的 MLP， 其 设计 依靠 全 局 优化 方式 。 在 第 5 章 ， 讨 论 RBF 网 络 ， 其 设计 依靠 局 部 优化 方 
式 。 在 第 6 章 ， 讨 论 支持 向 量 机 ， 其 设计 利用 VC 维 数理 论 。 在 本 章 我 们 将 要 提出 另外 一 类 
解决 监督 学 习 任 务 的 方法 。 这 里 使 用 的 方法 基于 一 个 通常 的 工程 原则 : 分 而 治之 。 

根据 分 而 治之 的 原则 (principle of divide and conquer) , 一 个 复杂 的 计算 任务 被 分 解 成 一 些 
简单 的 计算 任务 ， 然 后 再 将 这 些 任务 的 解 重新 组 合 起 来 。 在 监督 学 习 中 ， 我 们 将 学 习 任务 分 
配给 一 些 专家 以 求 得 计算 的 简单 化 ， 这 样 就 将 输入 空间 划分 成 一 组 子 空间 。 这 些 专家 的 组 合 
就 形成 了 委员 会 机 器 (committee machine)。 从 基本 上 说 ， 它 融合 各 专家 所 获得 的 知识 使 该 机 
器 能 作出 全 局 决策 ， 可 以 设想 这 种 决策 优 于 任何 一 个 专家 单独 作出 的 决策 。 这 种 “委员 会 机 
器 ”的 思想 可 以 追溯 到 Nilsson(1965); 那里 考虑 的 网 络 结构 是 由 一 个 基本 的 感知 元 层 后面 跟 
着 在 第 二 层 的 一 个 投票 感知 器 组 成 的 。 

委员 会 机 器 是 通用 逼近 器 。 它 们 可 以 被 分 成 两 大 类 : 

1. 静态 结构 。 在 这 种 委员 会 机 器 中 ， 组 合 几 个 预报 器 (专家 ) 响 应 的 机 制 和 输入 信和 号 无 
关 ， 因 此 这 种 设计 是 “静态 ”的 。 这 一 类 包括 以 下 的 方法 : 

。 总 体 平均 ， 其 中 将 不 同 的 预报 器 输出 进行 线形 组 合 ， 产 生 整 体 输出 。 

。 推举 (boosting) 方 法 ， 其 中 弱 学 J 算法 被 转化 为 一 个 能 达到 任意 高 精确 度 的 算法 。 

2. 动态 结构 。 在 这 第 二 种 委员 会 机 器 中 ， 将 各 单个 专家 输出 组 合成 整体 输出 的 机 制 直 
接 和 输入 信号 相关 ， 因 此 名 为 “动态 ”。 这 里 ,我 们 将 提 到 两 种 动态 结构 类 : 

。 混合 专家 ， 所 有 专家 的 单独 响应 通过 单个 门 网 非 线 性 地 组 合 ; 

。 分 层 混 合 专家 ， 所 有 专家 的 单独 响应 通过 多 个 门 网 层次 式 地 非 线性 组 合 。 

在 混合 专家 中 ， 分 而 治之 的 原则 只 被 应 用 一 次 ; 而 在 分 层 混合 专家 中 ， 分 而 治之 的 原则 
被 应 用 多 次 ， 因 而 产生 相应 数量 的 层次 。 

混合 专家 网 络 和 分 层 混 合 专 家 网 络 也 可 以 被 看 作 组 合 网 络 (modular network) 的 例子 。 组 
合 性 的 (modularity) 概 念 的 正式 定义 是 (Osherson et al. ,1990 ) : 


一 个 神经 网 络 ， 只 要 它 所 进行 的 运算 能 分 解 成 两 个 或 者 多 个 组 件 (module)( 子 系统 )， 各 
个 组 件 有 独立 的 输入 变量 ， 且 相互 之 间 没 有 通信 ， 则 称 该 神经 网 络 是 组 合 化 的 。 各 个 组 件 的 
输出 被 一 个 整合 单元 调节 ， 不 允许 向 各 个 组 件 反 馈 人 信息。 特别 地 ， 整 合 单元 完成 两 项 任务 ， 
(1) 决 定 各 个 组 件 的 输出 怎样 被 整合 ， 形 成 整个 网 络 的 最 终 输 出 ，(2) 决 定 哪些 组 件 应 学 习 哪 
些 训练 模式 。 

这 种 组 合 性 定义 排除 静态 结构 的 委员 会 机 器 ， 因 为 它 在 输出 端 不 存在 具有 决策 作用 的 整合 单 
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本 章 的 组 织 


本 章 分 为 两 个 部 分 。 第 一 部 分 为 静态 结构 类 ， 包 括 7.2 节 至 7.5 节 。7.2 节 讨 论 总 体 平 
均 的 方法 ， 其 后 7.3 节 是 计算 机 实验 。7.4 节 讨 论 推举 技术 ， 其 后 7.5 节 是 计算 机 实验 。 

本 章 第 二 部 分 为 动态 结构 类 ， 包括 7.6 节 至 7.13 节 。 具 体 地 ，7.6 节 讨 论 混合 专家 
(ME) 作 为 联想 Gauss 混合 模型 。7.7 节 讨 论 更 一 般 的 情况 ， 即 分 层 混 合 专家 (HME)。 这 后 一 
模型 和 标准 决策 树 紧 密 相关 。 然 后 7.8 节 描 述 怎样 对 分 层 混 合 专家 运用 标准 决策 树 求解 HME 
的 模型 选择 问题 ( 即 门 网 和 专家 网 络 的 数目 )。 在 7.9 节 我 们 定义 后 验 概率 ， 帮 助 我 们 对 用 于 
HME 模型 的 学 习 方法 建立 公式 。 在 7.10 节 通 过 对 HME 模型 形成 似 然 函 数 为 解决 参数 估计 问 
Ge EAH, 7.11 节 给 出 学 习 策 略 的 概览 。 随 后 在 7.12 节 对 EM 算法 进行 详细 讨论 ,在 
7.13 节 把 这 种 算法 应 用 于 HME 模型 。 

在 7.14 节 以 最 后 评论 结束 本 章 。 


7.2 总 体 平均 


图 7-1 显示 了 各 种 训练 好 的 神经 网 络 ( 即 专家 ) ， 它 们 有 一 个 共同 的 输入 ， 然 后 将 它们 各 
自 的 输出 整合 成 一 个 总 的 输出 y。 为 简化 说 明 ， 这 些 专 家 的 输出 假定 为 标量 值 。 这 种 技术 被 
称 作 总 体 平均 方法 '" 。 使 用 这 种 方法 有 双重 动机 : 
。 假如 图 7-1 中 专家 的 整合 用 单个 神经 网 络 替 代 ， 我 们 将 得 到 一 个 相对 多 的 可 调 参数 
的 网 络 。 对 这 个 一 个 大 的 网 络 进行 训练 的 时 间 可 能 比 并 行 训练 一 组 专家 的 时 间 长 。 
。 当 可 调 参 数 数目 比 训练 数据 集 的 基数 ( 即 集合 的 大 小 ) 大 时 ， 过 拟 合 (overfitting) 数 据 
的 风险 也 随 之 增 大 。 
无 论 如 何 ， 在 使 用 如 图 7-1 描述 的 委员 会 机 器 时 ， 我 们 期 望 分 别 训练 的 专家 收敛 到 误差 曲面 
的 不 同 的 局 部 极 小 ， 但 整个 系统 性 能 通过 将 多 个 输出 进行 某 种 组 合 而 得 到 提高 。 





图 7-1 基于 总 体 平均 的 委员 会 机 器 的 框图 


首先 考虑 对 给 定数 据 集合 训练 后 的 一 个 单独 神经 网 络 的 情形 。 让 x 代表 一 个 从 来 没有 训 
练 过 的 输入 向 量 ， 让 d 代表 一 个 相应 期 望 输出 (代表 一 个 类 的 标号 或 者 数值 的 响应 ); x 和 4 
分 别 代表 随机 向 量 X 和 随机 变量 D 的 实现 。 令 (x) 代表 网 络 所 实现 的 输入 - 输出 函数 。 根 
据 第 2 章 提 到 的 “ 偏 置 /方差 "困境 的 知识 ， 我 们 可 以 把 F(x) 和 条 件 期 望 FE[ DIX=x] 的 均 方 


误差 分 解 成 偏 置 和 方差 分 量 如 下 : 
Eg(( F(x) - E[D | X = x])] = Bg(F(x)) + Vo (F(x)) (7.1) 
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其 中 Bg (F(x) ) 是 偏 置 的 平方 : 


Ba(F(x)) = (Eo[ F(x)] - ELD | X = x] (7.2) 
而 Vo (F(x)) 是 方差 : 

Va (F(x)) = Egl (F(x) - Egl F(x))})7] (7.3) 
PA Eg 对 空间 9 取 期 望 ， 2 被 定义 为 包括 所 有 的 训练 集 ( 即 输入 和 目标 输出 ) 的 分 布 和 所 有 的 


初始 条 件 分 布 的 空间 。 

有 多 种 单独 训练 图 7- 1 中 专家 的 方法 , 也 有 多 种 合并 其 输出 的 方法 。 在 这 里 的 讨论 中 ， 
我 们 考虑 所 有 的 专家 网 络 有 相同 的 构 形 (结构 ) 的 情况 ， 但 它们 是 从 不 同 的 初始 条 件 开 始 训练 
的 。 在 图 7-1 所 示 的 委员 会 机 器 输出 的 组 合 器 中 ， 仅 用 简单 的 总 体 平 均 器 (ensemble 
averager)"”  。 令 9 代表 所 有 初始 条 件 的 空间 。 令 Fi(x) 代 表 图 7-1 中 专家 网 络 的 输入 - 输出 函 
数 在 一 系列 “有 代表 性 ”的 初始 条 件 下 的 平均 。 和 式 (7.1) 类 似 ， 可 以 写 出 


Ey((F,(X) - ELD |X = x])?] = By(F(x)) + Vy (F(x)) (7.4) 
其 中 By ( F(x)) 是 定义 在 空间 9 的 偏 置 的 平方 : 
By(F(x)) = (Egy[ F(x)] - E[D | X = x])’ (7.5) 
而 Vy (F(x)) 是 方差 : 
Vy (F(x)) = Ey[ (F(x) - Eyl F(x)]¥] (7.6) 
HE Ey 是 对 空间 9 取 期 望 。 


从 空间 3 的 定义 ， 我们 可 以 将 它 看 作 初 始 条 件 所 在 的 空间 3 和 表示 为 9 的 剩余 空间 
(remnant space) 的 乘积 。 因 此 ， 再 次 通过 与 式 (7.1) 相 似 性 ， 可 以 写 出 


Eg [(F,(x) - ELD I X = x])’] = By (E(x)) + Va CF, (x)) (7.7) 
其 中 Bog,( Fi(x)) 是 定义 在 剩余 空间 9’' 上 的 偏 置 平方 : 
By (Fi(x)) = (Eg [F(x)] - ETD | X = x]? (7.8) 
而 Voy (F (x) ) 是 相应 的 方差 : 
Vo (F(x)) = Eg [(F,(x) - Eg [F(x)1)] (7.9) 
从 空间 9，9 和 93/ 的 定义 容易 看 出 
Eg [ F,(x)] = EglF(x)] (7.10) 
因此 随 之 可 将 式 (7.8) 重 写 为 下 列 等 价 形式 : 
Bg (F(x)) = (Eg[ F(x)] - E[D |X = x)) = Bg(F(x)) (7.11) 


接 下 来 考虑 式 (7.9) 中 的 方差 Voy ( F(x))。 由 于 随机 变量 的 方差 等 于 随机 变量 的 均 方 值 减 去 
它 的 偏 置 的 平方 ， 可 以 等 价 写 为 
Vo (F(x)) = Eg [(F,(x)Y ] - (Eg [F(x))]) = Eg[(F(x))] - (Eg[ F(x)? 
l (7.12) 
其 中 在 第 二 个 等 式 利用 了 式 (7.10) ， 类 似 地 我 们 可 以 以 等 价 的 形式 重新 定义 式 (7.3): 
Vo (F(x)) = Egl (F(x)Y ] - (Eo[ F(x)})” (7.13) 
注意 函数 F(x) 在 整个 空间 3 上 的 均 方 值 一 定 大 于 或 者 等 于 整体 均 方 函 数 F (x) 在 剩余 空间 2 
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上 的 均 方 值 ， 即 
Eal F(x)’] > Eg [(F(x))] 
根据 这 个 不 等 式 ， 比 较 式 (7.13) 和 (7.12)， 立 即 可 以 得 到 
Va CF) (x)) < Vo CF(x)) (7.14) 

根据 式 (7.11) 和 (7.14)， 我 们 可 以 作出 下 面 的 两 个 结论 : 

1. 属于 如 图 7-1 的 委员 会 机 器 的 总 体 平均 函数 F(x) 的 偏 置 正好 和 属于 一 个 单个 神经 网 
络 的 函数 F(x) 的 偏 置 相同 。 

2. 总 体 平均 函数 F(x) 的 方差 小 于 函数 F(x) 的 方差 。 

这 些 理论 发 现 指出 一 个 用 于 减少 委员 会 机 器 产生 的 总 误差 的 训练 策略 是 由 不 同 的 初始 条 
件 得 到 的 (Naftaly et al. ,1997) 。 机 器 的 专家 成 员 被 故意 过 度 训练 ， 使 用 它 的 理由 是 基于 下 面 
的 基础 。 只 要 考虑 单个 专家 ， 偏 置 的 减少 就 是 以 方差 为 代价 的 。 但 是 ， 此 后 通过 对 初始 条 件 
总 体 平 均 专家 ， 方差 减少 了 而 偏 置 保留 不 变 。 


7.3 计算 机 实验 | 


在 关于 总 体 平均 方法 的 计算 机 实验 中 ， 我 们 重新 回 到 前 面 三 章 考 虑 的 模式 分 类 问题 。 问 
题 属于 两 个 有 重合 的 二 维 Caus 分 布 的 分 类 问题 。 这 两 个 分 布 有 着 不 同 的 均值 向 量 和 不 同 的 
方差 。 分 布 (ARE, ) 的 统计 特性 为 

m = [0,0]",o =1 
分 布 ARE ) 的 统计 特性 为 

m = [2,0] ,ao = 4 
两 个 分 布 的 散 列 图 在 图 4- 13 给 出 。 

这 两 类 被 假定 为 等 概率 的 。 错 误 分 类 的 代价 假定 相同 ， 正 确 分 类 的 代价 假定 为 0。 在 此 
基础 上 ，( 最 优 ) 贝 叶 斯 分 类 器 有 p. = 81.51% 的 正确 分 类 率 。 这 个 计算 的 细节 已 经 在 第 4 章 
给 出 。 

在 第 4 章 描述 的 计算 机 实验 中 ， 应 用 有 两 个 隐藏 神经 元 的 多 层 感 知 器 和 使 用 反 向 传播 算 
法 训练 ， 我 们 能 得 到 将 近 80% 的 正确 分 类 率 。 在 这 个 实验 中 ， 我 们 将 学 习 一 个 如 下 组 成 的 
BRA: 

。 10 个 专家 。 

。 每 个 专家 由 一 个 具有 两 个 隐藏 单元 的 多 层 感 知 器 组 成 。 

所 有 的 专家 都 应 用 反 向 传播 算法 进行 单独 训练 。 算 法 中 使 用 的 参数 是 学 习 率 参数 1 = 0.1， 
动量 常数 a=0.5。 

训练 样本 的 大 小 是 500 个 模式 。 所 有 的 专家 在 同一 个 数据 集 上 训练 ， 只 不 过 它们 的 初始 条 件 
不 同 。 特 别 地 ,初始 权 值 和 立 值 是 随机 地 从 区 间 [ - 1,1] 按 均匀 分 布 随机 挑选 的 。 

表 7-1 汇总 10 个 专家 通过 使 用 测试 集 的 500 个 模式 训练 后 的 分 类 性 能 。 仅 靠 简 单 地 提 
取 表 7-1 中 10 个 结果 后 算术 平均 而 得 到 的 正确 分 类 率 为 p.。 = 79.37% 。 另 一 方面 ， 应 用 总 
体 平均 方法 ， 即 简单 地 将 各 个 专家 的 输出 相 加 后 计算 正确 分 类 率 ， 我 们 得 到 结果 : p,,。 = 
80.27% 。 这 个 结果 比 p,,, 提 高 了 0.9 个 百分点 。 这 种 改进 对 所 有 的 实验 来 说 都 是 存在 的 。 
分 类 结果 是 应 用 32 000 个 测试 模式 计算 出 来 的 。 
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总 结 这 个 实验 的 结果 ， 我 们 可 以 说 : 通过 过 度 训 练 单个 多 层 感知 器 (专家 )， 将 它们 各 自 
的 数值 输出 相 加 产生 委员 会 机 器 的 总 输出 ， 然 后 作出 决策 ， 由 此 提高 分 类 性 能 。 
R71 在 委员 会 机 器 中 使 用 的 单个 专家 的 分 类 性 能 





专家 正确 分 类 的 百分数 
Netl 80.65 
Net2 76.91 
Net3 80.06 
Net4 80.47 
Net5 80.44 
Net6 76.89 


Net7 80.55 
Net8 80.47 
Net9 76.91 
Net10 80.38 


7.4 推举 


如 同 在 介绍 中 提 到 的 那样 ， 推 举 是 属于 静态 结构 的 委员 会 机 器 的 另 一 种 方法 。 推 举 和 
总 体 平均 有 很 大 的 不 同 。 在 基于 总 体 平均 的 一 个 委员 会 机 器 中 ， 所 有 的 专家 在 一 个 数据 
集 上 训练 ， 在 训练 的 过 程 中 ， 它 们 是 由 于 初始 条 件 不 同 而 导致 不 同 的 。 与 此 相反 ， 推 举 
机 器 中 的 专家 各 自 的 训练 集 是 完全 不 同 的 分 布 ; 它 是 能 被 用 来 提高 任何 学 习 算 法 性 能 的 一 
个 通用 方法 。 

426"! (boosting) 能 用 三 种 基本 不 同 的 方法 实现 ; 

1. 通过 过 滤 推 举 。 这 种 方法 涉及 到 用 一 个 弱 学 习 算 法 的 不 同 版 本 过 滤 训 练 样本 。 它 假 
定 有 大 量 ( 理 论 上 无 穷 ) 样 本 可 用 ， 这 些 样 本 在 训练 过 程 中 有 些 被 抛弃 ， 有 些 被 保留 。 这 个 方 
法 比 另 外 两 种 方法 的 一 个 优越 之 处 在 于 它 具 有 较 小 的 存储 需求 。 

2. 通过 子 抽样 推举 。 第 二 种 方法 用 到 一 个 固定 大 小 的 训练 样本 集合 。 训 练 过 程 中 这 些 
样本 根据 一 个 给 定 概 率 分 布 “ 重 新 抽样 "。 根 据 固 定 的 训练 样本 计算 误差 。 

3. 通过 重新 加 权 推 蔡 。 第 三 种 方法 也 用 到 一 个 固定 大 小 的 训练 样本 集合 ， 但 它 假 定 弱 
学 习 算 法 能 接收 “加 权 ” 后 的 样本 。 根 据 加 权 后 的 样本 计算 误差 。 
在 这 一 节 将 描述 两 种 不 同 的 推举 算法 。 其 中 之 一 归功 于 Schapire(1990) ， 属 于 方法 1; 另外 的 
一 种 称 为 自 举 (AdaBoost) ， 归 功 于 Freund and Schapire(1996a,1996b), ， 属 于 方法 2。 


通过 过 滤 推 举 


在 Schapire(1990) 描 述 的 推举 ， 其 基本 思想 植 根 于 一 个 与 分 布 无 关 的 或 可 能 近似 正确 
的 (probably approximately correct, PAC) 学 习 模 型 。 通 过 在 第 二 章 讨论 过 的 PAC Y, RNA 
道 一 个 概念 (concept) 只 是 某 范例 (instance) 域 内 的 一 个 布尔 函数 ， 该 范例 域 包括 我 们 感 兴趣 
的 所 有 对 象 (object) 的 编码 。 在 PAC 学 习 中 ， 一 个 学 习 机 器 通过 随机 选择 概念 的 样本 的 基 
础 上 ， 去 确认 一 个 未 知 的 二 值 概 念 。 更 进一步 地 说 ， 学 习 机 器 的 目标 是 找到 一 个 错误 率 
最 多 为 e 的 假说 或 者 预测 规则 ，e 为 任意 小 的 正 数 ， 并 且 它 对 于 所 有 输入 分 布 都 是 一 致 成 
立 的 。 基 于 此 ，PAC 学 习 模 型 又 称 为 强 学 习 模 型 (strong leaming model) 。 因 为 样本 的 随机 性 
质 ， 那 么 极 有 可 能 由 于 一 些 高 度 不 具有 代表 性 的 样本 存在 而 不 能 学 到 有 关 未 知 概念 的 任 
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何 东西 。 因 此 我 们 要 求学 习 模 型 只 在 以 概率 1 -5 找到 未 知 概念 的 良好 近似 后 继续 ， 这 里 
8 是 一 个 小 的 正 数 。 

在 PAC 学 习 模 型 中 ， 有 一 个 变形 称 为 弱 学 习 模 型 (weak leaning model) 。 它 对 于 学 习 未 知 
概念 的 要 求 大 大 地 放松 了 。 现 在 学 习 机 器 被 要 求 以 稍微 小 于 1/2 的 误差 率 去 发 现 一 个 假说 。 
当 一 个 假说 对 于 每 一 个 例子 以 完全 随机 的 方式 去 猜想 一 个 二 值 的 标号 时 ， 它 错误 和 正确 的 概 
率 是 相同 的 。 也 就 是 说 ， 它 得 到 一 个 恰好 1/2 的 误差 率 。 从 而 ， 随 之 而 来 的 弱 学 习 模 型 实际 
表现 只 比 随机 猜想 仅 略 好 一 点 。 别 可 学 习 的 概念 是 Kearns and Valiant(1989) 引 入 的 ， 他 们 提 
出 了 假说 推举 问题 ， 它 在 下 面 的 问题 中 体现 出 来 : 

弱 学 习 和 强 学 习 二 者 概念 等 价 吗 ? 

换 多 话说， 任何 是 弱 可 学 习 的 概念 类 ， 是 和 否 也 是 强 可 学 习 的 ? 或 许 是 惊奇 的 ， 这 个 问题 
由 Schapire(1990) 肯 定 地 回答 了 。 其 证 明 是 构造 性 的 。 特 别 地 ， 一 个 直接 将 弱 学 习 模 型 转化 
成 强 学 习 模型 的 算法 被 设计 出 来 。 它 的 取得 是 通过 改变 样本 的 分 布 使 得 由 一 个 弱 学 习 模型 建 
立 一 个 强 学 习 模 型 。 

在 基于 过 滤 的 推举 中 ， 委 员 会 机 器 由 三 个 专家 或 子 假说 组 成 。 用 于 训练 它们 的 算法 称 为 
FÆ Již (boosting algorithm)。 这 三 个 专家 可 随意 标 为 “第 一 "、“ 第 二 ”和 “第 三 ”。 这 三 个 专家 
各 自 训 练 如 下 : 

1. 第 一 个 专家 在 Ni 个 样本 上 训练 。 

2. 被 训练 过 的 第 一 个 专家 通过 下 面 的 方式 过 滤 另 外 一 个 样本 集 : 

。 抛 一 枚 硬币 ; 这 实际 是 模拟 一 个 随机 猜测 。 

。 假如 结果 是 正面 ， 则 新 模式 通过 第 一 个 专家 ， 并 抛弃 被 正确 分 类 的 模式 ， 直 到 过 到 

一 个 被 错误 分 类 的 模式 为 止 。 这 个 错误 分 类 模式 被 加 入 到 第 二 个 专家 的 训练 集中 。 

。 假如 结果 是 反面 ， 所 做 的 恰好 相反 。 特 别 地 ， 将 新 模式 通过 第 一 个 专家 ， 抛 弃 不 能 

被 正确 分 类 的 模式 ， 直 到 遇 到 一 个 能 被 正确 分 类 的 模式 为 止 。 正 确 分 类 的 模式 被 加 
人 到 第 二 个 专家 的 训练 集中 。 

。 继续 这 个 过 程 ， 直 到 N 个 样本 被 第 一 个 专家 过 滤 ， 这 个 过 滤 后 的 样本 组 成 第 二 个 

专家 的 训练 集 。 

依据 抛 硬 币 过 程 ， 可 以 确保 假如 第 一 个 专家 在 第 二 个 样本 集 上 测试 ， 它 将 有 1/2 的 误差 
率 。 换 句 话说， 用 来 训练 第 二 个 专家 的 第 二 个 含有 N 样本 的 集合 和 第 一 个 用 来 训练 第 一 个 
专家 的 N 样本 的 集合 具有 完全 不 同 的 分 布 。 用 这 种 方法 ， 第 二 个 专家 被 强制 学 习 和 第 一 个 
专家 的 分 布 完全 不 同 的 分 布 。 

3. 一 旦 第 二 个 专家 通过 正常 方式 训练 完毕 ， 供 第 三 个 专家 使 用 的 第 三 个 训练 集 将 通过 
如 下 的 方式 产生 : 

。 将 一 个 新 的 模式 通过 专家 1 和 专家 2。 假 如 这 两 个 专家 的 决策 一 致 ， 则 抛弃 该 模式 ， 

否则 该 模式 被 加 入 到 第 三 个 专家 的 训练 集中 。 

。 继续 这 个 过 程 ， 直 到 NN, 个 样本 被 第 一 个 专家 和 第 二 个 专家 所 共同 过 滤 。 这 个 被 过 

滤 得 到 的 样本 集 组 成 第 三 个 专家 的 训练 集 。 
这 个 三 步 过 滤 过 程 如 图 7-2 所 示 。 
令 N, 代表 一 个 样本 集 的 数目 ， 该 样本 集 必须 被 第 一 个 专家 过 滤 以 便 得 到 供 第 二 个 专家 
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NA 具有 和 专家 1 和 专家 2 
个 样本 学 习 的 样本 集 不 同 的 
统计 性 质 的 N 样本 
具有 和 专家 1 
NN 个 样本 | 训练 后 的 学 习 的 样本 集 
SRI 不 同 的 统计 性 
质 的 N 个 样本 
a) 专家 1 完成 的 过 湾 样 本 b) 专 家 1 和 专家 2 完成 的 过 波 样 本 


图 7-2 通过 过 滤 的 推举 示意 图 


使 用 的 N, 个 样本 训练 集 。 注 意 N, 是 固定 的 ，N 取决 于 第 一 个 专家 的 泛 化 误差 率 。 令 几 
代表 一 个 样本 集 的 数目 ， 该 样本 集 必须 被 第 一 个 和 第 二 个 专家 所 共同 过 滤 而 得 到 供 第 三 个 专 
家 训练 用 的 N, RAR. BAAN, 个 样本 需要 用 来 训练 第 一 个 专家 ， 总 共 需 要 用 来 训练 委员 
会 机 器 的 训练 集 的 大 小 为 N, = Ni + N + Ni 。 但 计算 的 代价 是 基于 3N, 个 样本 ， 因 为 N E 
好 是 用 来 分 别 训练 三 个 专家 的 样本 的 数目 。 委 员 会 机 器 需要 一 个 很 大 的 样本 集 供 其 操作 ， 但 
仅仅 是 该 样本 集 的 一 个 子 集 被 用 来 实施 真正 的 训练 ，、 从 这 一 点 上 来 说 ， 我 们 可 以 说 这 里 描述 
的 推举 算法 确实 是 “聪明 ”的 。 

另 一 点 值得 注意 的 是 ， 通 过 第 一 个 专家 网 络 的 过 滤 操 作 和 通过 第 一 和 第 二 个 专家 联合 的 
过 滤 操 作 ， 使 得 第 二 个 和 第 三 个 专家 网 络 能 分 别 集中 学 习 分 布 中 “难以 学 习 ” 的 部 分 。 

在 最 早 由 Schapire(1990) 提 出 的 推举 算法 的 理论 推导 中 ， 用 简单 表决 来 评估 委员 会 机 器 
对 于 未 学 习 过 的 测试 模式 的 性 能 。 特 别 地 ， 一 个 测试 模式 被 提交 给 委员 会 机 器 ， 假 如 第 一 个 
和 第 二 个 专家 各 自 的 决策 相 一 致 ， 则 使 用 这 个 类 的 标号 。 否 则 ， 使 用 第 三 个 专家 发 现 的 类 的 
标号 。 但 是 ， 由 Drucker et al.(1993,1994) 给 出 的 实验 工作 确定 将 三 个 专家 各 自 的 输出 相 加 
将 会 产生 比 表决 更 好 的 性 能 。 比 如 说 ， 
在 光学 字符 识别 (OCR) 问 题 中 ， 相 加 
运算 仅仅 只 对 三 个 专家 “数字 0” 的 输出 
相 加 ， 另 外 的 9 个 数字 的 输出 也 是 同 
样 的 。 总 体 03 

假如 三 个 专家 ( 即 子 假 说 ) 在 它们 BRER 
各 自 训 练 的 分 布 上 误差 率 为 s < 1/2; 
也 就 是 说 ， 它 们 三 个 都 是 弱 学 习 模 型 。 
在 Schapire(1990) 中 证 明 委 员 会 机 器 的 

gle) = 3e - 2¢° (7.15) 

AF. FA g(s) 相 对 e 的 图 形 如 图 7-3 
所 示 。 从 该 图 中 ， 我 们 可 以 看 出 界 比 
原始 误差 率 s 小 得 多 。 通 过 递归 运用 图 7-3 式 (7.15) 通 过 滤波 推举 的 图 形 
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转换 成 一 个 强 学 习 模 型 。 在 这 个 意义 上 我 们 可 以 说 强 学 习 模型 和 弱 学 习 模型 确实 是 等 价 的 。 
自 举 

通过 过 滤 推 举 的 一 个 实际 的 局 限 在 于 它 经 常 需要 大 量 的 训练 样本 。 这 种 局 限 能 通过 利用 
另外 一 种 称 为 自 举 (AdaBoost) 的 推举 算法 克服 (Freund and Schapire, 1996a, 1996b ) ， 它 属于 重 
新 采样 的 推举 。 自 举 的 采样 框架 是 集中 式 学 习 的 自然 框架 ; 最 重要 的 是 ， 它 允许 训练 数据 重 
用 。 

和 通过 过 滤 算 法 推举 一 样 ， 自 举 方法 也 用 于 弱 学 习 模型 。 这 个 新 方法 的 目的 是 找到 一 个 
对 给 定 的 带 标 号 样本 的 分 布 9 具 有 低 误差 率 的 最 终 映射 函数 或 假说 。 它 在 两 个 方面 和 其 他 的 
推举 不 同 。 

。 自 举 自 适应 调节 由 弱 学 习 模 型 返回 的 弱 假 设 误差 ， 这 就 是 算法 名 称 的 由 来 。 

。 自 举 性 能 的 界 只 取决 于 弱 学 习 模型 对 学 习 过 程 中 实际 产生 的 那些 分 布 的 性 能 。 

自 举 操作 如 下 。 对 于 迭代 n， 推 举 算法 提供 在 训练 样本 上 分 布 为 8, 的 弱 学 习 模型 。 作 
为 响应 该 弱 学 习 模 型 计算 一 个 假说 3, : X->Y， 它 能 正确 地 分 类 训练 样本 的 一 部 分 。 误 差 通 
过 分 布 9, 来 度量 。 这 个 过 程 持续 了 次 迁 代 ， 最 后 推举 机 器 将 这 些 假说 8 FF, 合并 成 
一 个 最 终 的 假说 于。 

为 了 计算 (1) 对 选 代 n 上 的 分 布 g,， 和 (2) 最 终 的 假说 8,， EAR 7-2 小 结 的 简单 过 程 。 
初始 分 布 9, 是 训练 样本 上 的 均匀 分 布 ， 表 示 为 


9,(i) =+ 对 于 所 有 的 


给 定 算法 在 迭代 = 的 分 布 9。 和 弱 假 说 和, WRF, 能 正确 分 类 输入 向 量 x,， 则 下 一 
个 分 布 9 中 对 例子 ;的 权重 乘 以 一 个 数 B,E [0,1]; 否则 ， 权 值 不 变 。 然 后 通过 将 权 值 除 
以 归 一 化 常数 Z, 而 重新 归 一 化 。 实 际 上 ， 训 练 集 9 总 被 许多 先前 的 弱 假 说 正确 地 分 类 的 “ 容 
易 " 的 样本 赋予 较 低 权 值 ， 而 被 经 常 错误 分 类 的 “ 难 ” 的 样本 被 赋 巴 了 较 高 的 权 值 。 因 此 自 举 
算法 将 更 多 的 权 值 集中 到 看 起 来 最 难 分 类 的 样本 上 。 

至 于 最 终 假 说 Gu ， 它 是 根据 弱 假 说 8 Fa, F, 加 权 表 决 的 方式 ( 即 加 权 线 性 阐 值 ) 计 
算 的 。 也 就 是 说 ， 对 于 一 个 给 定 的 输入 向 量 x， 最 终 假说 ,输出 的 标号 d 使 得 预测 该 输出 
标号 的 弱 假 说 的 加 权 求 和 为 最 大 。 假 说 中 , 的 权 值 定义 为 log(1/8, )， 结 果 是 较 大 的 权 值 被 赋 
予 较 低 误差 率 的 假说 。 

自 举 的 一 个 重要 理论 性 质 如 下 面 定 理 所 述 (Freund and Schapire , 1996a) : 

假如 一 个 弱 学 习 模 型 ， 当 被 自 举 调用 时 ， 产 生 误 差 为 ee er 的 假说 ， 其 中 自 举 算 
FERR n 时 误差 6, 定义 为 

= 2 2,(i) 
LF (x, xd, 


Mike, <1/2, HS Y, =1/2 -86,0 那么 最 终 假 说 误差 的 如 下 上 界 成 立 : 
T T 
L hFa) x dil I< [] v1 -4y, < ep(-2 Dim) (7.16) 
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这 个 定理 证 明 通 过 弱 学 习 模 型 构造 的 弱 假 说 只 要 恒 有 着 比 1/2 稍微 好 一 点 的 误差 ， 则 最 
终 假 说 多 ,的 训练 误差 呈 指 数 级 下 降 趋 于 0。 但 是 ， 这 并 不 意味 着 测试 数据 上 的 泛 化 误差 必 
定 小 。 在 Freund and Schapire(1996a) 中 给 出 的 实验 表明 两 点 。 第 一 ， 训 练 误差 的 理论 界 经 常 
是 很 弱 的 ; 第 二 ， 泛 化 误差 倾向 于 比 该 理论 暗示 的 误差 好 得 多 。 
表 7-2 给 出 用 于 一 个 二 值 分 类 问题 的 自 举 的 小 结 。 
表 7-2 自 举 方法 小 结 
输入 : WERE] O, di) iA 
AN 个 标记 样本 的 分 布防 
弱 学 习 模型 
整数 了 指定 算法 的 迭代 次 数 
初始 化 : 对 于 所 有 的 i, ED (i) = UN 
计算 :对 于 n =1,2,…,7 ， 进 行 下 面 的 过 程 : 
1. BAS FUR, MERE, 
2. 3 UBS: X>Y 
3. ABR, 的 误差 





En = Z D, (i) 
iF Ged, 
4. 设置 B, =,/(1-«,) 
5. 更 新 分 布 9 ,: 
D (i n F i) = d; 
anoe OW 
n 1 否则 
其 中 Z, 是 归 一 化 常数 (选择 它 使 得 9 ,1 (让 是 一 概率 分 布 )。 
输出 : 最 终 的 假说 是 


F (x) = arg max > log 3- 
EDn HK Dd 


当 可 能 的 类 别 ( 标 号 )W > 2 时 ， 推 举 问 题 变 得 更 复杂 ， 因 为 随机 猜想 给 出 正确 标号 的 概 
率 是 11M， 比 1/2 要 小 。 在 这 种 情况 下 为 了 推举 能 使 用 任何 比 随 机 猜想 好 一 点 点 的 假说 ， 我 
们 就 需要 改变 算法 和 “ 弱 学 习 ” 算 法 是 什么 的 定义 。 使 用 改变 的 方法 在 Freund and Schapire 
(1997) 以 及 Schapire( 1997) 中 描述 。 


误差 特性 


在 Breiman (1996b) 中 报告 的 自 举 方法 的 实验 表明 ， 当 训练 误差 和 测试 误差 作为 推举 迭 
代 次 数 的 函数 时 ， 我 们 经 常 发 现 当 训练 误差 实质 上 减 小 为 0 后， 测试 误差 继续 下 降 。 这 种 
现象 如 图 7-4 所 显示 。 对 于 通过 过 滤 的 推举 ，Drucker et al. (1994) 更 早报 导 过 类 似 的 结 
果 。 

根据 我 们 所 知道 的 单个 神经 网 络 的 一 般 特 性 来 说 ， 图 7-4 所 显示 的 现象 是 令 人 惊讶 的 。 
回想 第 4 章 ， 在 用 反 向 传播 算法 训练 多 层 感知 器 时 ， 测试 (确认 ) 数 据 的 误差 先 减 少 ， 到 达 一 
个 最 小 值 ， 然 后 由 于 过 拟 合 而 上 升 ; 可 以 参看 图 4-20。 图 7-4 所 示 的 情况 是 很 不 同 的 ， 随 着 
网 络 通过 不 断 的 训练 变 得 越 来 越 复杂 ,推广 误差 持续 下 降 。 这 种 现象 似乎 和 “0ccam 剃 刀 原 
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理 ” 相 冲突 ， 该 原理 表明 ， 一 个 学 习 机 器 应 
尽 可 能 地 简单 ， 以 便于 达到 一 个 好 的 泛 化 
性 能 。 

在 Schapire et al.(1997) 中 ， 给 出 对 这 个 
用 于 自 举 的 现象 的 一 种 解释 。 那 里 提出 的 
分 析 的 重要 思想 是 ， 当 计算 一 个 推举 机 器 
产生 的 泛 化 误差 时 ， 不 仅仅 要 考虑 训练 误 
差 ， 还 要 考虑 分 类 的 置信 度 (confidence )。 
提出 的 分 析 揭 示 推 举 和 支持 向 量 机 之 间 的 
关系 ; 支持 向 量 机 已 经 在 前 一 章 考虑 。 特 
别 地 ， 比 如 分 类 边界 定义 为 赋予 属于 那个 
样本 的 正确 标号 的 权 值 和 赋予 任 一 不 正确 
标号 的 最 大 权 值 的 差 。 从 这 个 定义 ， 容 易 
看 出 边界 是 区 域 [ - 1，1] 内 的 一 个 数 ， 并 且 
如 果 一 个 样本 能 被 正确 分 类 的 充分 必要 条 
件 是 它 的 边界 是 正 的 。 因 此 Schapire 等 人 证 
明 在 图 7-4 中 观察 到 的 现象 确实 和 产生 表决 
分 类 误差 的 训练 样本 的 边界 分 布 有 关 。 需 
要 再 次 强调 的 是 Schapire et al.(1997) 给 出 的 
边界 分 析 只 是 针对 自 举 的 和 不 适用 于 其 他 
推举 的 算法 。 


7.5 计算 机 实验 


在 这 个 实验 中 ,我们 将 运用 通过 过 滤 
的 推举 算法 解决 一 个 相当 难 的 模式 分 类 任 
务 。 分 类 问题 是 二 维 的 包含 非 凸 的 决策 区 
域 ， 如 图 7-5 所 示 。 一 类 模式 由 位 于 标号 为 
6, 的 区 域内 的 数据 点 组 成 ， 另 外 一 类 模式 
由 位 于 标号 为 @, 的 区 域内 的 数据 点 组 成 。 
要 求 设 计 一 个 委员 会 机 器 ， 用 于 决定 一 个 
测试 模式 属于 类 %, RARE, 。 


错误 率 





测试 ( 泛 化 ) 误差 率 





推举 迭代 次 数 


图 7-4 自 举 算法 的 概念 化 误差 特性 





x 


图 7-5 用 于 推举 试验 的 模式 构 形 


用 于 解决 这 个 问题 的 委员 会 机 器 由 三 个 专家 组 成 。 每 一 个 专家 包含 由 两 个 输入 节点 、 五 
个 隐藏 神经 元 和 两 个 输出 神经 元 组 成 的 2 -5 -2 多 层 感知 器 。 应 用 反 向 传播 算法 完成 训练 。 
图 7-6 显示 用 来 训练 三 个 专家 的 数据 散布 图 。 图 7-6a 所 示 数 据 用 于 训练 专家 1。 图 7-6b 所 
示 数 据 是 经 过 在 专家 1 完成 训练 后 过 滤 得 到 的 ; 这 些 数据 用 于 训练 专家 2。 图 7-6c 所 示 的 数 
据 是 由 专家 1 和 专家 2 所 共同 过 滤 后 用 来 训练 专家 3 的 。 对 于 每 一 个 专家 来 说 ， 训 练 样本 的 
大 小 都 是 N, = 1000 个 模式 。 仔 细 检 查 这 三 个 图 我 们 可 以 观察 到 : 

。 图 7-6a 中 用 于 专家 1 的 训练 数据 是 均匀 分 布 的 。 
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。 图 7-6b 中 用 专家 2 的 训练 数据 ， 显 示 在 标 有 A 和 B 的 区 域内 数据 点 的 集中 ， 这 对 于 
专家 1 分 类 来 说 似乎 是 很 困难 的 。 在 这 两 个 区 域内 的 数据 点 的 数目 等 于 被 正确 分 类 [364 


的 点 的 数目 。 
。 图 7-6c 中 用 于 专家 3 的 训练 数据 ， 显 示 数 据点 更 加 集中 ， 看 起 来 对 于 专家 1 和 专家 


2 分 类 来 说 都 是 困难 的 。 





c) 


图 7-6 推举 的 计算 机 试验 中 用 于 专家 训练 的 样本 散布 图 
a) 专 家 1 b) 专 家 2 c) 专 家 3 
图 7-7a、7-7b、7-7c 显示 专家 1、 专 家 2 和 专家 3 各 自 形成 的 决策 边界 。7-7d 显示 通过 
将 三 个 专家 输出 进行 简单 相 加 而 形成 的 总 体 决 策 边界 。 注 意 ， 属 于 专家 1 和 专家 2 的 决策 区 
域 7-7a 和 7-7b 之 间 的 差异 定义 用 来 训练 专家 3 的 图 7-7c 的 训练 数据 点 的 分 布 。 
三 个 专家 对 于 测试 数据 正确 分 类 的 概率 是 : 


专家 1: 75.15%, Z2: 71.44%, EZ 3: 68.90% 
整个 委员 会 机 器 的 正确 分 类 概率 是 91.79% ， 它 是 用 32 000 个 模式 的 测试 数据 计算 得 到 [365] 


的 。 图 7-7d 所 示 的 三 个 专家 的 推举 算法 建立 的 总 体 决 策 边 界 ， 进 一 步 证 明 它 的 良好 分 类 性 
能 。 
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图 7-7 在 推举 试验 中 不 同 专家 形成 的 决策 边界 
a) 专 家 1 b) 专 家 2 c) 专 家 3 d) 整 个 委员 会 机 器 


7.6 联想 Gauss 混合 模型 


从 本 节 开 始 的 本 章 第 二 部 分 我 们 研究 第 二 类 委员 会 机 器 ， 即 动态 结构 。 用 在 这 里 的 术语 
“动态 "是 指 专家 的 知识 整合 是 在 输入 信号 的 参与 作用 下 完成 的 。 

为 了 开始 我 们 的 讨论 ， 考 虑 一 个 组 合 网 络 ， 在 其 中 学 习 过 程 是 通过 将 学 习 的 自 组 织 和 监 
督 形式 以 无 颖 方式 融合 在 一 起 处 理 的 。 各 个 专家 从 技术 上 进行 监督 学 习 ， 把 它们 各 自 的 输出 

[366] 整合 以 模拟 期 望 响应 。 但 是 各 个 专家 也 进行 自 组 织 学 习 ; 即 它们 自 组 织 地 发 现 一 个 好 的 输入 

空间 的 分 割 ， 以 便于 每 个 专家 能 很 好 地 模拟 它 自己 的 子 空间 ， 而 且 作为 一 个 完整 的 组 它们 能 
很 好 地 模拟 输入 空间 。 

在 刚才 描述 的 学 习 方案 中 ， 有 一 点 和 前 面 三 章 讨论 的 学 习 方 案 不 同 ， 那 就 是 假设 用 一 个 
特殊 的 模型 产生 训练 数据 。 


概率 产生 模型 
为 了 确定 概念 ， 考 虑 一 个 回归 问题 ， 其 中 一 个 回归 量 x 产生 用 随机 变量 D 表示 的 响应 ; 
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这 个 随机 变量 的 一 个 实例 用 d 来 表示 。 为 了 简化 表达 ， 并 不 失 一 般 性 ， 我 们 采用 一 个 标量 
形式 的 回归 。 我 们 假设 响应 d 的 产生 遵循 下 列 的 概率 模型 (Jordan and Jacobs, 1995) : 

1. 输入 向 量 x 随机 地 从 某 一 先 验 分 布 中 选取 。 

2. 给 定 x 和 某 个 参数 向 量 a ， 根 据 条 件 概 率 PC kl x,a® ) 选 定 某 个 特定 的 规则 ， 比 如 
说 第 个 规则 。 

3. 对 于 规则 k, k=1,2,°°,K, RAAM d 和 x 是 线形 关系 ， 并 且 有 一 个 附加 的 误差 
Ers & 模拟 成 Gauss 随机 分 布 的 随机 变量 ， 其 均值 为 0， 方差 为 单位 值 1: 

Ele) = 0 ”对 于 所 有 的 上 (7.17) 
和 var[e, ] =1 对 于 所 有 的 天 (7.18) 
第 3 点 作出 单位 方差 的 假设 只 是 为 了 讲解 的 简洁 性 。 一 般 地 ， 每 一 个 专家 都 有 能 从 训练 数据 
中 学 习 的 一 个 不 同 的 输出 方差 。 

给 定 x 和 某 个 参数 向 量 wo ，k = 1,2,…, 尺 ,D 的 概率 产生 取决 于 条 件 概率 P(D = 
dlx，wi )。 我 们 并 不 要 求 刚才 描述 的 概率 产生 模型 必须 是 对 物理 现实 的 一 个 直接 的 对 应 。 
相反 ， 我 们 仅仅 要 求 在 那里 包含 的 概率 决策 能 表示 一 个 抽象 模型 ， 它 以 递增 的 精确 度 确 定 一 
个 非 线性 流 形 上 响应 d 的 条 件 均值 ， 这 个 非 线 性 流 形 建 立 输 入 向 量 和 均值 输出 的 关系 
(Jordan, 1994)。 

根据 这 个 模型 ， 对 应 于 标号 k 的 K 个 选择 ， 响 应 D 能 产生 K 个 不 同 的 方法 。 因 此 ,在 
给 定 输入 向 量 x 的 情况 下 ， 产 生 响 应 D= d 的 条 件 概 率 等 于 


K 
P(D = d\x,8°) = S)P(D = d! x,w)P(k I x,a®) (7.19) 
k=1 


其 中 ，9 是 产生 模型 的 参 教 向 量 ， 代 表 ao 和 jw LAA. Ea M w 中 的 上 标 0 是 
用 来 区 分 产生 模型 的 参数 和 下 面 要 讨论 的 混合 专家 模型 的 参数 的 。 


混合 专家 模型 


考虑 如 图 7-8 所 示 的 网 络 设置 ， 称 为 混合 专家 (mixture of experts,ME) 模 型 四。 特别 地 ， 
它 由 天 个 叫 专家 网 络 或 是 简称 专家 的 监督 模块 组 成 ， 并 且 有 一 个 叫 门 网 (gating network) AYR 
合 单元 ， 在 专家 网 络 中 充当 协调 者 的 角色 。 假 定 不 同 的 专家 根据 前 面 所 讲 的 概率 产生 模型 在 
输入 空间 不 同 的 区 域 上 工作 得 最 好 ， 这 就 需要 门 网 协调 。 
将 回归 问题 假定 为 是 标量 的 ， 每 一 个 专家 网 络 包含 一 个 线性 滤波 器 。 图 7-9 构成 专家 k 
的 单个 神经 元 的 信号 流 图 。 因 此 ， 专 家 上 产生 的 输出 是 输入 向 量 x 和 该 神经 元 突 触 权 值 向 量 
w 的 内 积 ， 表 示 为 
yi = Wx, 有 = 1,2,°",K (7.20) 
门 网 由 单 层 的 天 个 神经 元 组 成 ， 每 个 神经 元 被 指派 给 一 个 特定 的 专家 。 图 7- 10a 是 门 网 的 结 
构图 ， 图 7- 10b 是 在 该 网 络 中 神经 元 有 的 信号 流 图 。 和 和 专家 不 一 样 ， 门 网 的 神经 元 是 非 线 性 
的 ， 它 们 的 激活 函数 由 
g= expC) ， k = 2， 天 (7.21) 
27 expl uj) 
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Bk 
exp (u,) 





K 
exp (u;) 
bo 人 
图 7-9 构成 专家 上 的 单个 图 7-10 
线性 神经 元 的 信号 流 图 a) 用 于 门 网 的 单 层 软 最 大 神经 元 。b) 软 最 大 神经 元 信号 流 图 
定义 ， 其 中 wu 是 输入 向 量 x ARAM a, 的 内 积 ， 即 
u, = a x, k = 1,2,.…,K (7.22) 


式 (7.21) 归 一 化 的 指数 变换 可 以 看 作 logistic 函数 的 多 输入 推广 。 它 保持 了 输入 值 的 级 次 ， 且 
是 一 个 选取 最 大 值 的 “ 胜 者 全 得 "运算 的 可 微分 推广 。 由 于 这 个 原因 ，(7.21) 的 激活 函数 称 为 
软 最 大 (softmax)(Bridle,1990a)。 注 意 由 于 w 对 输入 x 的 线性 依赖 使 得 门 网 的 输出 是 x 的 一 
个 非 线性 函数 。 
对 于 门 网 作用 的 概率 解释 ， 我 们 可 以 认为 它 是 一 个 分 类 器 ， 将 输入 向 量 x 映射 到 多 项 概 
Æ (multinomial probability) ， 以 便 不 同 的 专家 将 能 够 匹配 期 望 的 响应 (Jordan and Jacobs, 1995). 
最 重要 的 是 ,将 “ 软 最 大 ”用 作 门 网 的 激活 函数 能 确保 这 些 概 率 满足 以 下 要 求 : 
Osg<1 对 于 所 有 的 天 (7.23) 


和 >18 = 1 (7.24) 
kel 
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S y 代表 输入 向 量 为 x 时 第 大 个 专家 的 输出 。 这 个 ME 模型 的 整体 输出 是 


y= Sau (7.25) 
其 中 ， 正 像 前 面 指出 的 那样 ，g; 是 x 的 一 个 非 线性 函数 。 当 选 定 了 概率 产生 模型 的 规则 有， 
单个 输出 y 可 以 看 作 随机 变量 D 的 条 件 均值 ， 表 示 为 


E[D | x,k] = y, = wx, k=1,2,°°,K (7.26) 
用 m RER D 的 条 件 均值 ， 可 以 写成 
Br = Yeo k = 1,2,=,K (7.27) 
D 的 方差 同 误差 6; 的 方差 一 样 。 因 此 根据 式 (7.18)， 可 以 写 出 
var[ D Ix,k]=1, k=1,2,.%,K (7.28) 


当 给 定 输入 向 量 x 和 选取 概率 产生 模型 的 第 有 个 规则 ( 即 专家 有) 后 ，D 的 概率 密度 函数 可 
以 描述 为 
1 1 2 
万 (Cd | x,k,0) = ze- Fd- n), k = 1,2,.…,K (7.29) 


其 中 6 表示 门 网 的 参数 和 ME 模型 中 那些 专家 的 参数 的 参数 向 量 。 给 定 x, D 的 概率 密度 函 


数 是 概率 密度 函数 [fo(d1x,k,9)1 1 的 混合 ， 它 的 混合 参数 由 门 网 决定 的 多 项 概率 给 出 。 因 


此 可 以 写成 
fo(d 1x,0) = >) gifo(d | x,k,0) = = >) sol - icd- y)) (7.30) 


式 (7.30) 的 概率 分 布 称 为 联想 Gauss 混合 模型 (associative Gaussian mixture model) ， 其 非 联 
想 的 对 应 物 是 传统 Gauss 混合 模型 (Titterington et al. , 1985; McLachlan and Basford, 1988), ， 这 在 
第 5 章 简 要 描述 。 一 个 联想 模型 区 别 于 非 联想 模型 的 不 同 之 处 在 于 其 条 件 均值 y, 和 混合 参 
Ke, 是 非 固定 的 ， 相 反 ， 它 们 都 是 输入 向 量 x 的 函数 。 式 (7.30) 的 联想 Gauss 混合 模型 可 以 
被 看 作 传 统 Gauss 模型 的 推广 。 

图 7-8 所 示 ME 模型 假定 通过 训练 得 到 恰当 调整 ， 则 其 重要 方面 是 : 

1. 给 定 x 和 概率 产生 模型 的 规则 有 成立， 第 上 个 专家 的 输出 y 提供 代表 期 望 响应 DD 的 
随机 变量 的 条 件 均 值 的 一 个 估计 。 

2. 门 网 的 输出 2, 定义 在 单独 从 x 获得 知识 的 基础 上 专家 的 输出 匹配 值 D = d 的 多 项 
概率 。 

给 定 训练 样本 {(x, d;) | 和 以 式 (7.30) 的 概率 分 布 工作 ， 问 题 就 是 要 以 最 优 的 方式 学 
习 条 件 均值 m = y 和 混合 参数 g&, ，k = 1,2,… ,天 ,使 得 户 (d1x,8) 提 供 负责 产生 训练 数据 的 
环境 的 固有 概率 密度 函数 的 良好 估计 。 

例 7.1 回归 曲面 考虑 一 个 包含 两 个 专家 和 一 个 由 g 和 g, 表示 两 个 输出 的 门 网 的 
ME 模型 。 输 出 g 定义 为 (参看 式 (7.21)) 


exp( u; ) _ 1 
exp(u,) + exp(u,) — 1+ exp(- (u, - u,)) 


Fa Ma 代表 门 网 的 两 个 权 值 向 量 。 我 们 可 以 写成 


Ur = x’ a,, k = 1,2 








& = (7.31) 
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从 而 重新 将 等 式 (7.31) 写 成 
1 
“14 expl- x’(a, ~ a,)) 





gı (7.32) 


门 网 的 另外 一 个 输出 g 是 


&=1-g 


~ 1+ exp(— x’(a, -a)) 

因此 ，g, g: MBE logistic 函数 的 形式 ,但 有 一 点 差别 。gi 的 方向 由 差 向 量 (a, - a ) 的 方向 
决定 ， 而 82 的 方向 由 差 向 量 (a - ai ) 的 方向 决定 ， 刚 好 和 门 g, 的 方向 相反 。 沿 着 由 al =a, 
EMR, 我们 可 以 得 到 g = g = 1/2， 这 两 个 专家 对 该 ME 模型 的 输出 贡献 是 相同 的 。 
远离 脊 线 ， 则 这 两 个 专家 中 的 一 个 或 者 另外 一 个 充当 支配 角色 。 


7.7 分 层 混 合 专家 模型 


如 图 7-8 所 示 的 ME 模型 的 工作 是 通过 将 输入 空间 分 解 成 不 同 的 子 空间 ， 由 一 个 门 网 负 
责 分 散 信息 (从 训练 数据 中 收集 ) 给 不 同 的 专家 。 如 图 7-11 所 示 的 分 层 混 合 专 家 (HME) 模 型 
是 ME 模型 的 自然 扩展 。 这 个 图 例 是 由 四 个 专家 组 成 的 一 个 HME 模型 。HME 模型 的 体系 结 
构 是 一 棵 树 ， 门 网 在 树 的 非 终端 节点 ， 而 专家 在 树 的 叶子 部 分 。HME 模型 和 ME 模型 的 不 同 
之 处 在 于 其 输入 空间 被 分 成 一 个 骨 套 的 子 空间 集 ， 在 多 个 以 分 层 方式 调整 的 门 网 控制 下 信息 
在 专家 之 间 被 整合 或 者 重新 分 配 。 








第 一 层 门 网 


图 7-11 两 个 层次 的 层次 混合 专家 (HME) 示 意图 
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如 图 7-11 所 示 的 HME 模型 有 两 层 层次 或 两 层 门 网 。 继 续 以 同样 方式 运用 分 而 治之 的 原 
则 ， 我 们 可 以 构造 任意 多 层 层 次 的 HME 模型 。 注 意 根 据 图 7-11 所 描述 的 约定 ， 门 网 层 的 编 
号 从 树 的 输出 节点 开始 。 

图 7-11 所 示 的 HME 模型 的 构成 可 以 从 两 方面 观察 (Jordan,1994) : 

1.HME 模型 是 分 而 治之 策略 的 产物 。 如 果 我 们 相信 将 输入 空间 分 成 区 域 是 一 个 好 策略 ， 
那么 再 将 区 域 分 成 子 区 域 是 一 个 同样 好 的 策略 。 我 们 可 以 递归 地 继续 采用 这 种 方式 ， 直 到 达 
到 这 样 一 个 阶段 ， 逼 近 曲 面 的 复杂 性 是 对 训练 数据 “局 部 "复杂 性 良好 拟 合 。 因 此 HME 模型 
至 少 应 有 ME 模型 一 样 的 性 能 ， 而 且 经 常 要 比 它 好 。 这 是 基于 这 样 原因 : 一 个 HME 模型 中 
较 高 层 的 门 网 有 效 地 整合 信息 ， 并 且 把 它 重 新 分 配给 该 门 网 控制 下 的 特定 子 树 的 专家 。 因 
此 ， 在 所 讨论 的 子 树 中 每 一 个 参数 和 在 该 子 树 中 的 其 他 参数 一 起 分 享 强度 ， 因 而 有 助 于 提高 
HME 模型 的 整体 性 能 。 

2.HME 模型 是 一 个 软 决 策 树 。 根 据 这 种 观点 ， 混 合 专家 只 不 过 是 单 层 的 决策 树 ， 有 时 
也 称 为 决策 树桩 (decision stump)。 从 一 个 更 一 般 的 背景 来 说 ，HME 模型 可 视 为 决策 树 的 概率 
框架 ,具有 称 为 决策 树 树 根 的 HME 模型 的 输出 节点 。 标 准 决策 树 的 方法 是 构造 一 棵 树 ， 该 
树 在 输入 空间 的 不 同 域 上 导出 一 个 硬 ( 即 是 或 否 ) 决 策 。 这 和 HME 模型 上 的 软 决 策 形成 对 照 。 
因此 ， 基 于 下 面 的 两 个 原因 HME 模型 会 胜 过 标准 决策 树 : 

。 一 个 硬 决策 不 可 避免 的 丢失 信息 ， 但 一 个 软 决 策 树 尽力 地 保存 信息 。 例 如 一 个 软 二 
分 决策 传送 距 决 策 边界 ( 即 其 决策 是 0.5 的 点 ) 的 距离 信息 ， 而 一 个 硬 决策 做 不 到 这 
一 点 。 因 此 我 们 可 以 说 不 像 标准 的 决策 树 ，HME 模型 符合 信息 保持 规则 (information 
preservation mule) 。 这 个 经 验 规则 表明 一 个 输入 信号 的 信息 内 容 应 该 以 计算 有 效 的 方 
式 保存 直到 系统 作 好 进行 最 后 决策 或 者 参数 估计 的 准备 。 
标准 决策 树 受 到 贪 杏 (greediness) 问 题 的 损害 。 一 旦 从 这 样 的 树 中 作出 一 个 决策 ， 那 
么 在 这 以 后 这 个 决策 被 冻结 ， 永 久 不 会 改变 。HME 模型 减轻 了 贪 禁 问题 ， 因 为 通过 
这 棵 树 所 作 的 决策 是 不 断 变 化 的 。 不 像 标准 决策 树 ， 在 HME 模型 中 不 良 决策 可 能 沿 
着 这 棵 树 得 到 恢复 。 

第 二 种 观点 ， 即 在 考虑 HME 模型 时 一 个 软 决 策 树 是 首选 的 方法 。 当 将 HME 模型 看 作 决 
策 树 的 概率 基础 时 ， 对 任何 给 定 的 数据 集 它 允许 我 们 计算 似 然 函数 ， 并 且 对 决定 输入 空间 不 
同 区 域 之 间 分 割 的 参数 求 最 大 似 然 估 计 。 因 而 在 我 们 已 知 的 标准 决策 树 的 基础 上 ， 可 以 得 到 
一 个 实际 的 模型 选择 问题 的 解决 方案 ， 这 在 下 一 节 进 行 讨论 。 


7.8 使 用 标准 决策 树 的 模型 选择 


和 每 一 种 其 他 的 神经 网 络 一 样 ， 对 于 参数 估计 问题 的 一 个 满意 解 ， 关 键 在 于 对 所 解决 的 
问题 选择 合适 的 模型 。 在 HME 模式 的 情形 ， 模 型 选择 包括 树 中 的 决策 节点 的 数目 和 组 织 。 
这 种 特殊 的 模型 选择 问题 的 一 个 确实 可 行 的 解决 方案 是 在 训练 集 上 运行 标准 决策 树 算法 ， 然 
后 采用 获得 的 树 作为 决定 HME 模型 的 参数 的 学 习 算法 的 初始 化 步骤 (Jordan,1994)。 

HME 模型 和 标准 决策 树 有 很 清晰 的 相似 性 ， 比 如 Breiman et al.(1984) 提 出 的 分 类 和 回归 
树 (classification and regression tree, CART)。 图 7- 12 表示 一 个 CART 的 例子 ， 其 中 输入 数据 的 
空间 % 被 一 系列 的 二 值 分 害 剖 分 成 终端 节点 。' 比较 图 7-11 和 图 7-12， 我 们 会 发 现 CART 和 
HME 之 间 的 下 述 相 似 点 : 
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。 在 CART 的 中 间 ( 即 非 终端 ) 节 点 中 选择 i b 
分 割 的 规则 所 起 的 作用 ， 和 HME 模型 
中 门 网 的 作用 相似 。 5 
。 CART 中 的 终端 节点 所 起 的 作用 ， 和 É 
HME 模型 中 专家 网 络 作用 相似 。 5 
从 对 感 兴趣 的 分 类 或 回归 问题 的 CART FF 
始 ， 我 们 利用 CART 的 离散 性 ， 在 可 选择 树 中 9 
提供 一 种 有 效 的 搜索 。 通 过 应 用 这 样 选择 的 一 ”图 7-12 二 叉 决策 树 ， 描 述 如 下 : 节点 n 和 节 
棵 树 作为 参数 估计 学 习 算法 的 初始 化 步骤 ， 我 Ae 为 节点 4 的 后 代 ; 节点 u 和 节点 6 为 节点 
们 利用 HME 模型 的 连续 概率 基础 产生 期 望 响 e 的 后 代 ; 节点 ts 和 节点 n 为 节点 t 的 后 代 
应 的 一 个 改进 的 “ 软 ” 佑 计 。 


CART 算法 


根据 我 们 刚才 所 讲 的 ， 可 以 得 到 一 个 CART 算法 的 简明 描述 。 该 描述 在 回归 的 背景 下 给 
出 。 以 训练 数据 | (x,, d;)1 六 开始 ， 我 们 可 以 利用 CART 通过 以 下 的 方式 去 建造 一 个 最 小 平 
方 回归 的 二 叉 树 T (Breiman et al. ,1984): 

1. 分 割 的 选择 。 设 一 个 节点 上 代表 当前 树 7 的 一 个 子 集 。 让 4 (i) 代表 所 有 落 入 :的 
(Xi , di) 的 d; 平均 ， 即 


d(t) = WG) Da (7.33) 
FOP, NOE 中 所 有 实例 的 数目 ， 对 所 有 x Et 的 d, RA EX 
€(t) = $ Da - dn)? | (7.34) 
x, Et 
和 ECT) = >) (2) (7.35) 


IET 


对 于 节点 :， 总 和 D e(d -d OY RREBRAME AA”, MERMERE t 中 的 


di 和 均值 4(:) 的 偏差 平方 总 和 。 将 这 些 E 7 的 偏差 加 起 来 得 到 所 有 节点 的 偏差 的 平方 之 
Al, BON 除 后 得 到 均值 。 

给 定 了 中 当前 节点 上 的 一 个 分 割 集 5， 最 好 的 分 割 ， 是 S 中 使 S(7) 减 少 最 快 的 分 割 。 
更 精确 的 说 ,假定 对 于 节点 i 的 任何 分 割 s， 它 将 节点 ; 分 成 (i 左边 的 新 节点 ) 和 rO A 
边 的 新 节点 )， 我 们 令 


A€(s,t) = €(T) - E(t) - (te) (7.36) 
那么 要 采取 的 最 好 分 割 ;“ 是 一 个 如 下 的 特殊 分 割 
A€(s",t) = maxA b(t, s) (7.37) 


建立 一 棵 回归 树 以 使 8(7) 的 减少 最 大 化 。 
2. 终端 节点 的 确定 。 假 如 下 面 的 条 件 满足 ， 一 个 上 节点 被 声明 为 终端 节点 : 
maxA €(s,t) <B (7.38) 


其 中 B AHIA E E, 
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3. 终端 节点 参数 的 最 小 平方 估计 。 令 ;代表 最 后 的 二 又 树 7 的 终端 节点 ， 令 X(4) 代 表 
H x Er HARRER, S d(1) 代 表 1 中 所 有 d 组 成 的 对 应 向 量 ， 定 义 
w(t) = X (d)d(t) (7.39) 
其 中 ，X* OERE XORA., MA w(4) 将 在 终端 节点 :输出 中 产生 一 个 4(1) 的 最 小 平 
方 估 计 。 使 用 式 (7.39) 计 算 产生 的 权 值 ， 通 过 寻找 关于 回归 曲面 残 差 (误差 ) 平 方 的 最 小 和 而 
不 是 均值 ， 分 割 选择 问题 得 以 求解 。 


使 用 CART 初始 化 HME 模型 


假定 CART 的 方法 已 经 应 用 到 一 个 训练 集 上 ， 由 此 产生 这 个 问题 的 一 个 二 又 决策 树 。 我 
们 可 以 把 由 CART 产生 的 分 割 作 为 一 个 多 维 曲面 ， 定 义 为 
ax+b=0 
HY, 是 输入 向 量 ，a 代表 一 个 参数 向 量 ，5 代表 一 个 偏 置 。 
接着 考虑 一 个 HME 模型 中 对 应 的 情况 ， 从 例 7.1 我 们 注意 在 一 个 二 叉 树 中 由 一 个 门 网 
产生 的 回归 曲面 可 以 写成 


(7.40) 





1 
E =i} exp(— (a’x + b)) 
它 定 义 一 个 分 割 ， 特 别 是 g = 1/2 的 时 候 。 令 这 个 特殊 的 门 网 的 权 值 向 量 ( 差 )a 被 写 为 
a= lal .Te (7.41) 
其 中 上 a 代表 a 的 长 度 ( 即 欧 几 里 德 范 数 )，a/ || a || 是 一 个 归 一 化 的 单位 长 度 向 量 ， 将 式 
(7.41) 应 用 到 式 (7.40) 中 去 ， 我 们 可 以 重 写 门 网 的 一 个 参数 化 分 割 如 下 : 
1 


isel- lal ( (qr) x+ 727) 

其 中 可 以 看 出 a/ || al 决定 分 割 的 方向 ，1 all 决定 分 割 的 锐 度 (sharpness)。 通 过 第 2 章 的 讨 
论 ， 我 们 观察 到 向 量 a 的 长 度 实 际 上 充当 温度 的 倒数 。 从 式 (7.42) 中 注意 的 重点 是 由 线性 过 
滤器 后 跟 一 个 非 线 性 的 “ 软 最 大 "形式 组 成 的 门 网 能 够 模仿 一 个 CART 类 型 的 分 割 。 此 外 ,我 
们 有 另外 的 自由 度 ， 即 向 量 a 的 长 度 。 在 一 个 标准 决策 树 中 ， 这 个 附加 的 参数 是 不 相干 的 ， 
因为 用 一 个 阐 值 ( 硬 决策 ) 来 产生 一 个 分 割 。 相 反 ，a 的 长 度 对 由 HME 模型 中 的 门 网 产生 的 
分 割 锐 度 有 极 深 的 影响 。 特 别 地 ， 对 于 一 个 固定 方向 的 突 触 权 值 向 量 a， 我 们 可 以 陈述 如 
下 : 

。 当 a 长 ( 即 温度 低 ) 的 时 候 ， 分 割 是 尖锐 的 ; 

。 当 a 短 ( 即 温 度 高 ) 的 时 候 ， 分割 是 柔和 的 。 

假如 在 极限 情况 ， 我 们 有 || all = 0， 分割 消失 并 且 在 消失 的 (虚构 的 ) 分 割 两 边 g = 1/2。 
因为 被 考虑 的 门 网 不 再 分 割 ， 所 以 设置 all = 0 的 作用 等 同 于 从 树 中 前 除非 终端 节点 。 在 
一 个 极端 的 例子 中 ， 当 | a 在 每 一 个 非 终 端 节 点 上 很 小 ( 即 温 度 高 )， 那 么 整个 HME 模型 会 
像 单个 的 节点 ; 也 就 是 说 ，HME 模型 退化 成 一 个 线性 回归 模型 (假设 线性 专家 )。 随 着 阔 值 
的 突 触 权 值 向 量 在 长 度 上 开始 增加 ，HME 开始 产生 ( 软 的 ) 分 审 ， 因 而 增加 模型 可 利用 的 自 
由 度 的 数目 。 

我 们 可 以 通过 如 下 的 步骤 初始 化 HME: 





(7.42) 
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1. 使 用 CART 训练 数据 。 

2. 设置 HME 模型 中 专家 的 突 触 权 值 向 量 ， 使 其 和 在 二 叉 树 相应 终端 节点 上 通过 应 用 
CART 得 到 的 参数 向 量 最 小 平方 估计 相等 。 

3. 对 于 门 网 : 

(a) 设 置 突 触 权 值 向 量 , 使 其 指向 二 叉 树 中 与 通过 CART 得 到 的 相应 分 割 正 交 的 方向 。 

(b) 设 置 突 触 权 值 向 量 的 长 度 ( 即 欧 几 里 德 范 数 ) 等 于 很 小 的 随机 向 量 。 


7.9 先 验 和 后 验 概率 


多 项 式 概率 g, 和 gj, 分 别 属于 第 一 层 和 第 二 层 的 门 网 ， 从 它们 的 值 仅 依 赖 于 输入 向 量 
(刺激 )x 这 个 意义 上 来 说 ， 可 视 为 先 验 概率 。 用 同样 的 方法 ， 可 以 定义 后 验 概率 hih, 
它们 的 值 既 依赖 于 输入 向 量 x， 又 依赖 于 专家 对 x 的 响应 。 后 面 的 这 组 概率 对 HME 模型 的 
学 习 方 法 的 发 展 有 用 。 

参考 图 7-11 的 HME 模型 ， 可 以 定义 树 中 非 终端 节点 的 后 验 概率 为 (Jordan and Jacobs, 
1994) : 


2 1 
Bk D gexpl 一 ald 一 yX) 











h, = n5 ] (7.43) 
他 1& > ene 一 ald 一 va] 
1 
Biitexpl — = (d - yg)? 
和 hik = 五 | - (7.44) 
>) guel 一 zd 一 yx) ) 
h, Ah, WRAE LEA ,上 ) 所 产生 输出 yi; 匹配 期 望 响 应 4 的 联合 后 验 概率 ， 由 
1 
BrEjik CXP| 一 ald - ve)? 
hy = hihi = z | 2 i (7.45) 
216i 2 gnrexp( - yd 一 va] 
给 出 。 概 率 满足 下 面 的 两 个 条 件 : 
Osh <1 对 于 所 有 的 (7 大) (7.46) 
2) Dh = 1 (7.47) 


式 (7.47) 的 含义 为 信任 是 在 竞争 的 基础 上 在 专家 之 间 分 配 。 此 外 ， 从 式 (7.45) 注 意 到 ， 和 办 与 
d 越 接 近 ， 给 予 专家 (j,) 的 输出 匹配 d 的 信任 就 越 多 ， 这 是 直观 上 满足 的 。 

HME 模型 的 一 个 特别 值得 一 提 的 重要 特征 是 计算 后 验 概率 涉及 的 计算 递归 性 。 检 查 式 
(7.42) 和 (7.43)， 发 现 式 (7.44) 中 记 ,; 的 分 母 看 起 来 是 式 (7.43) 中 忆 , 的 分 子 。 在 一 个 HME 模 
型 中 ， 我 们 想 计 算 树 中 所 有 非 终端 节点 的 后 验 概率 。 这 正 是 递归 性 特别 有 价值 之 处 。 特 别 
地 ， 计 算 树 中 的 所 有 非 终 端 节点 的 后 验 概率 可 以 通过 如 下 描述 的 一 记过 程 得 到 ; 

。 从 这 棵 树 一 层 一 层 地 移动 到 根 节点 ， 树 的 所 有 非 终 端 节点 可 以 通过 简单 地 将 它 的 “ 孩 

子 们 ”的 后 验 概率 进行 整合 而 得 到 。 
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7.10 最 大 似 然 估计 


下 面 转向 HME 模型 的 参数 估计 问题 ， 我 们 首先 注意 它 的 概率 的 解释 和 ME 模型 有 某 些 
不 同 。 因 为 HME 模型 以 二 又 树 的 形式 组 织 起 来 ， 所 以 假定 负责 产生 数据 的 环境 包括 一 个 诬 
套 序 列 的 软 ( 二 又 ) 决 策 ， 在 输入 向 量 X 到 输出 d 的 回归 中 结束 。 特 别 地 ， 我 们 假定 在 HME 
的 概率 产生 模型 中 ， 决 策 模拟 为 多 项 式 随 机 变量 (Jordan and Jacobs,1994)。 即 对 于 每 一 个 输 
Ax, RIH gx 人) 解释 为 和 第 一 个 决策 有 关 的 多 项 式 概 率 ， 将 gj, (x, 蚊 ) 解 释 为 和 第 二 
个 决策 有 关 的 条 件 多 项 式 分 布 。 和 前 面 的 一 样 ， 上 标 0 表示 产生 模型 参数 的 真实 值 。 这 个 决 
策 形成 一 个 决策 树 。 和 ME 模型 一 样 ,“ 软 最 大 ”被 用 作 整 个 HME 模型 的 门 网 的 激活 函数 。 
特别 地 ， 顶 层 门 网 的 第 个 输出 神经 元 的 激活 g 如 下 定义 : 

exp( ui ) 
exp(u,) + exp(u,)’ 
其 中 u 是 应 用 到 那个 神经 元 的 输入 加 权 和 。 类 似 地 ， 第 二 层 第 个 门 网 的 第 j 个 输出 神经 
元 的 激活 定义 为 


k = 1,2 (7.48) 





Bk = 


ep) 
Bik = expl ui) + expl uz)’ 


其 中 wi 是 应 用 到 这 个 特定 神经 元 的 输入 加 权 和 。 

由 于 表示 的 原因 ， 我 们 将 要 讲 到 的 HME 模型 仅仅 只 有 两 层 层次 ( 即 两 层 门 网 )， 如 图 
7-11 所 示 。 和 ME 模型 一 样 ，HME 模型 的 每 一 个 专家 被 假定 为 由 一 个 单 层 的 线性 神经 元 组 
成 。 令 yj 代表 专家 (j,k ) 的 输出 ， 可 以 把 HME 模型 的 整体 输出 表示 为 


y= 248 ÈS Bina (7.50) 
遵循 类 似 于 7.6 节 描述 用 于 ME 模型 的 过 程 ， 给 定 输入 x， 我 们 可 以 对 图 7-11 的 HME 
模型 的 期 望 响应 的 随机 变量 D 的 概率 密度 函数 表示 如 下 : 
1 2 2 1 2 
fo(d | x,8) = Tm s D enero( - 3C - va) ) (7.51) 
因而 ， 对 于 一 个 给 定 的 训练 数据 集 ， 式 (7.51) 定 义 一 个 数据 的 固有 分 布 的 模型 。 向 量 8 包括 
HME 模型 中 表征 门 网 和 专家 网 络 涉 及 的 所 有 突 触 权 值 。 
WARK Be He 1(8) 的 设计 由 概率 函数 f, (dl1lx,9) 给 出 ， 可 看 作 一 个 参数 向 量 8 的 函数 。 因 此 
我 们 可 以 写成 





(j,k) = 1,2 (7.49) 


1(08) = fy(d | x,0) (7.52) 
虽然 条 件 联合 概率 密度 函数 和 似 然 函 数 是 同样 的 公式 ， 但 我 们 必须 理解 它们 的 不 同 之 处 。 在 
万 (dlJx,8) 中 ， 输 入 向 量 x 和 参数 向 量 8 是 固定 的 ， 而 期 望 响 应 d 是 变量 。 但是， 在 似 然 函 

数 1(8) 中 ，x 和 d 都 是 固定 的 ， 而 6 是 变量 。 
实际 上 ， 我 们 发现 似 然 函数 的 自然 对 数 使 用 起 来 比 似 然 函数 本 身 方便 得 多 。 用 LOR 

示 对 数 似 然 函 数 ， 写 成 

L(®) = log[1(0)] = log[ fo (ad | x,0)] (7.53) 
1(8) 的 自然 对 数 为 !(6) 的 单调 变换 。 这 意味 着 1(8) 只 要 增加 ， 其 自然 对 数 LO) hie. A 
为 (8) 是 一 个 条 件 概 率 密度 函数 的 公式 ， 它 永远 不 可 能 为 负 。 那 就 意味 着 求 L(8) 的 计算 无 
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任何 问题 。 因 此 参数 向 量 8 的 一 个 估计 值 和 能 通过 似 然 方程 

9 

36/8) = 0 
得 到 ， 或 者 等 价 地 从 对 数 似 然 方 程 

ZLO) -0 (7.54) 
得 到 。 具 有 所 期 望 的 渐进 性 质 中 的 “最 大 似 然 估 计 ” 的 术语 通常 是 指 能 使 似 然 函 数 1(6) 达 到 
全 局 最 大 化 的 似 然 函 数 方程 的 根 。 但 是 ， 实 际 使 用 的 估计 值 8， 事实 上 可 能 是 局 部 最 大 而 不 
是 全 局 最 大 。 无 论 如 何 ， 归 功 于 Fisher(1925) 的 最 大 似 然 估 计 ， 基 于 一 个 相对 简单 的 思想 : 

不 同 的 总 体 产 生 不 同 的 数据 样本 ， 并 且 任 何 一 个 给 定 的 数据 样本 更 有 可 能 从 某 个 总 体 而 

不 是 从 其 他 的 总 体 产 生 。 


更 确切 地 说 ， 给 定 输入 向 量 x， 未 知 参 数 向 量 8 是 通过 它 的 最 可 能 值 估计 的 。 换 句 话 
说 ， 最 大 似 然 估 计 6 是 使 得 其 条 件 概率 函数 f(d1x,9) 最 大 的 参数 向 量 8 的 值 。 


7.11 HME 模型 的 学 习 策略 


7.10 节 中 HME 模型 的 概率 描述 引导 我 们 将 对 数 似 然 函数 上 (6) 作 为 最 大 化 的 目标 函数 。 
此 时 关键 问题 是 如 何 实现 最 大 化 。 和 其 他 最 优化 问题 一 样 ， 并 不 是 只 有 独一无二 的 最 大 化 
Z(9) 的 方法 。 相 反 ， 我 们 有 好 几 个 达到 我 们 目的 的 方法 ， 在 这 里 概述 其 中 的 两 个 (Jacobs and 
Jordan, 1991; Jordan and Jacobs , 1994) : 

1. 随机 梯度 方法 。 这 个 方法 产生 L(8) 的 最 大 化 的 在 线 算法 。 对 于 如 图 7- 11 描述 的 两 层 
HME 模型 依赖 于 下 面 组 成 的 公式 : 

。 专家 (j,) 中 突 触 权 值 向 量 的 梯度 向 量 93L/9w 

。 顶层 门 网 中 输出 神经 元 k 的 突 触 权 值 向 量 的 梯度 向 量 3L/9a 

。 和 专家 (j,k) 相 连 的 第 二 层 门 网 中 输出 神经 元 的 突 触 权 值 向 量 的 梯度 向 量 3L/3a, 

下 面 的 公式 可 直接 证 明 ， 


Fan = hy, (mn) h(n) (d(n) 一 a(n) )x(n) (7.55) 


ba = (h(n) = g,(n))x(n) (7.56) 


5c = h(n) Chai (n) - gj (n))x(n) (7.57) 
g 


式 (7.55) 表 明 ， 在 训练 的 过 程 中 ， 对 专家 (7 如) 的 突 触 权 值 的 调整 ， 是 与 联合 后 验 概率 hi 成 
比例 地 修正 输出 yj 和 期 望 响 应 a 之 间 的 误差 。 式 (7.56) 表 明 ， 对 顶层 门 网 的 输出 神经 元 的 
突 触 权 值 的 调整 ， 是 使 得 后 验 概 率 g (n) 和 相应 的 后 验 概率 h(n) 逐渐 靠近 。 式 (7.57) 表 
明 ， 对 与 专家 (j,) 相 联系 的 第 二 层 门 网 输出 神经 元 的 突 触 的 调整 ， 是 与 后 验 概率 h(n) 成 
比例 地 修正 先 验 概率 g,; 和 后 验 概率 所 ;之 间 的 误差 。 

根据 式 (7.55) 至 式 (7.57)， 当 每 一 个 模式 (刺激 ) 被 出 现 后 ，HME 模型 的 突 触 权 值 要 相应 
地 更 新 。 通 过 将 梯度 向 量 对 n 求 和 和 ， 可 以 得 到 使 对 数 似 然 函 数 L(8) 最 大 化 的 集中 式 的 梯度 
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上 升 算法 。 

2. 期 望 最 大 化 方法 。 期 望 最 大 化 (expectation-maximization, EM ) 算 法 归功 于 Dempster et al. 
(1977)， 提 供 一 个 在 有 缺失 数据 情况 下 计算 最 大 似 然 估计 值 的 迭代 方法 ， 在 此 情况 下 如 果 没 
有 数据 缺失 ， 则 最 大 似 然 估计 将 是 一 件 简单 的 事情 。EM 算法 的 名 字 是 根据 在 该 算法 的 每 一 
次 和 迭代 中 都 有 两 步 这 个 事实 而 得 来 的 : 

。 期 望 步 或 者 是 也 步 ， 它 使 用 一 个 非 完整 数据 (incomplete data ) 问 题 的 观察 数据 集 和 参 

数 向 量 的 当前 值 ， 产 生 一 个 假定 的 扩大 的 或 者 称 为 完整 的 数据 集 。 
。 最 大 化 步 或 者 M 步 ， 它 通过 使 玉 步 产生 的 完整 数据 的 对 数 似 然 函数 最 大 化 导出 参数 
向 量 的 一 个 新 的 估计 值 。 

因此 ， 参 数 向 量 从 一 个 合适 的 值 开 始 ,， 下 步 和 M 步 交替 进行 直到 收敛 。 

EM 算法 适用 的 情况 不 仅仅 包括 那些 本 来 就 非 完 整 的 数据 ， 还 包括 其 他 各 种 不 同情 况 ， 
这 些 情况 下 数据 非 完整 对 讨论 的 同 题 而 言 一 点 也 不 明显 或 者 说 不 自然 。 实 际 上 ， 最 大 似 然 佑 
计 的 计算 通过 人 工地 使 它 成 为 不 完整 数据 问题 经 常 极其 容易 。 之 所 以 这 样 是 因为 EM 算法 在 
给 定 完整 数据 的 情况 下 能 有 效 利用 减低 后 的 最 大 似 然 估计 的 复杂 性 (McLachlan and Krishnan, 
1997)。HME 模型 是 这 样 的 应 用 例子 之 一 。 在 这 种 情况 下 ， 缺 失 数据 以 某 种 指示 器 变量 的 形 
式 人 工地 引 人 到 HME 模型 中 ， 以 方便 估计 未 知 参数 向 量 的 最 大 似 然 值 ， 正 如 在 7.12 节 讨 论 
过 的 一 样 。 

不 管 是 通过 随机 梯度 方法 还 是 应 用 ME 算法 进行 设计 ，HME 模型 的 重要 特征 是 双重 的 : 

。 模型 中 的 每 一 个 门 网 不 断 地 计算 训练 集 的 每 个 数据 点 的 后 验 概率 。 

。 应 用 于 模型 中 专家 和 门 网 的 突 触 权 值 的 调整 量 ， 从 一 次 迭代 到 下 一 次 ， 是 一 个 所 计 

算 的 后 验 概率 和 相应 的 先 验 概率 的 函数 。 

相应 的 ， 假 如 树 底部 的 专家 网 络 不 能 很 好 地 拟 合 其 局 部 邻 域 的 训练 数据 ， 那 么 树 中 高 层 
的 门 网 的 回归 (判别 ) 曲 面 将 被 移 向 周围 。 这 种 移动 反 过 来 能 帮助 专家 网 络 在 下 一 次 学 习 算 法 
的 迭代 中 通过 平移 它们 进行 数据 拟 合 的 子 空间 而 更 好 地 拟 合 数据 。HME 模型 就 是 通过 这 种 
过 程 来 改良 与 像 CART 这 样 的 标准 决策 树 有 关 的 贪 禁 问 题 。 


7.12 EM 算法 


EM 算法 之 所 以 值得 注意 ， 部 分 是 由 于 固有 理论 的 简单 性 和 通用 性 ， 部 分 由 于 其 广泛 的 
运用 中。 在 这 一 节 我 们 将 在 一 般 意 义 下 对 EM 算法 做 一 个 简单 的 描述 。 在 下 一 节 我 们 继续 考 
BEE HME 模型 的 参数 估计 问题 中 的 应 用 。 

让 向 量 z 代 表 缺 失 的 或 者 未 观察 到 的 数据 。 让 r 代表 完整 的 数据 向 量 ， 它 由 一 些 可 观察 
的 数据 d 和 缺失 的 数据 向 量 z 组 成 。 因 而 考虑 两 个 数据 空间 久 和 %， 它 们 具有 从 久 到 @ 的 多 对 
一 的 映射。 我 们 不 能 观察 到 完整 的 数据 向 量 r， 相 反 实 际 仅 能 观察 到 9 中 非 完 整 的 数据 d = 
d(r). 

令 f(r19) 代 表 在 给 定 参数 向 量 6 的 情况 下 r 的 条 件 概率 密度 函数 。 那 么 随机 变量 D 在 
给 定 8 的 情况 下 的 条 件 概率 密度 函数 可 以 定义 为 


fld) = hof { 0) dr (7.58) 
其 中 统 (q) 由 4 = d(r) 决 定 的 统 的 子 空间 。EM 算法 的 直接 目的 在 于 找到 9 的 一 个 值 使 得 非 完 
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SEB UE SE BR Be 
L(®) = logf, (d | 0) 
取得 最 大 。 但 是 ， 这 个 问题 的 解决 是 通过 间接 地 运用 完整 数据 的 对 数 似 然 函数 
L.(8) = logf.(r | 8) (7.59) 
进行 迭代 来 完成 的 ， 它 是 一 个 随机 变量 ， 因 为 缺失 数据 向 量 z 是 未 知 的 。 
更 确切 地 说 ， 让 O(n EE EM 算法 在 迭代 n 时 参数 向 量 8 的 值 。 在 这 次 迭代 的 下 步 ， 
我 们 计算 期 望 
Q(0,6(n)) = ELL,(8)] (7.60) 
其 中 期 望 是 对 6(n) 得 到 的 。 在 同一 的 迭代 的 M 步 ， 在 参数 ( 权 值 ) 空 间 W 中 对 8 最 大 化 
Q(0,6 (n)) ,这样 找到 更 新 参数 估计 值 6(n + 1)， 表 示 为 
6(n +1) = arg maxQ(6, 6(n)) (7.61) 
该 算法 开始 时 参数 向 量 8 MRE (0), GAYE (7.60) A (7.61) Se EAM M 
步 ， 直 到 L(6(n+1)) 和 上 (6(n)) 之 间 的 差 下 降 至 菜 一 任意 小 值 ， 此 时 ， 整 个 计算 结束 。 
注意 在 EM 算法 的 一 次 迭代 后 ， 非 完整 数据 对 数 似 然 函 数 不 是 递减 的 ， 表 示 为 (参看 习 
题 7.10) 
L(6(n +1) > 16n)), n= 0,1,2,.… (7.62) 
等 号 成 立意 昧 着 我 们 处 于 对 数 似 然 函数 的 稳定 点 。 
7.13 EM 算法 在 HME 模型 中 的 应 用 
在 熟悉 EM 算法 之 后 ， 我 们 准备 应 用 EM 算法 解决 HME ienaeeiiians 
考虑 图 7-11 所 示 的 HME 模型 ， 当 它 运行 训练 集 的 样本 ;i 时， 令 of? 和 g 名 分 别 代表 | 
第 一 层 门 网 和 第 二 层 门 网 (j,k) 采取 与 决策 有 关 的 (条 件 ) 多 项 式 概率 。 那么 ,我 们 很 容 
易 得 到 在 给 定 样 本 x, 和 参数 向 量 8 的 情况 下 ， 随 机 变量 D 相应 的 条 件 概率 密度 函数 的 值 
WF: 
folds lsd) = = Diet? Dekel- 36d - 9?) (7:63) 
EH, yo BA TMM WR i 个 样本 由 专家 (六 有) 产生 的 输出 。 假 定 包 含 在 训练 集 内 
的 所 有 N 个 样本 彼此 之 间 是 统计 独立 的 ， 对 于 非 完 整数 据 问 题 避 以 写 出 对 数 似 然 函数 的 公式 


L(8) = log[ eae i x, ,0)] (7.64) 
利用 式 (7.63) 代 入 式 (7. 64) 且 忽略 常数 - (1/2) og(2n) 可 以 得 到 
Z(6) = | See $ efel - $(d, - y ‘all (7.65) 


为 了 计算 8 的 最 大 似 然 估 计 值 ， 我 们 不 得 不 找 一 个 L(9) 的 稳定 点 ( 即 局 部 或 全 局 最 大 )。 不 
幸 的 是 ， 式 (7.65) 所 示 的 最 大 似 然 函 数 L(8) ， 并 不 能 使 我 们 很 容易 进行 这 种 计算 。 

为 了 克服 这 种 计算 上 的 困难 ,根据 EM 算法 我 们 通过 加 入 一 组 相应 的 缺失 数据 人 为 地 扩 
大 可 观察 数据 | d 1, 。 为 这 一 点 引入 属于 HME 结构 概率 模型 的 指示 器 变量 如 下 : 

o i 和 z 训 被 解释 为 对 训练 集中 第 ; 个 样本 所 做 决策 的 相应 标号 。 这 些 变量 这 样 定义 ， 
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使 得 对 于 所 有 i， 只 有 一 个 P 等 于 1， 也 只 有 一 个 ASF lo oh? Alo) ARE 
的 离散 随机 变量 ， 它 们 各 自 的 期 望 定义 为 
Elz] = P[z =11x,,d,,6(n)] = hP (7.66) 
El aii] = Plz) = 11x,,d,,6(n)] = aie (7.67) 
其 中 ，6(n) 是 参数 向 量 8 在 EM 算法 迭代 次 时 的 估计 。 
e aP = zi2z 名 被 解释 成 对 训练 集中 第 ; 个 例子 指定 概率 模型 的 专家 (六 她 的 标号 ， 它 也 
被 看 作 一 个 离散 的 随机 变量 ， 其 期 望 值 定义 为 
Flee] = Elz] = Elz ]EL P] = hh = hË (7.68) 
式 (7.66) 至 (7.68) 中 的 RP, ALAA EE 7.9 节 引 入 的 后 验 概率 ; 对 它们 添加 上 标 i 表明 当 
前 考虑 的 样本 。 这 三 个 等 式 的 合理 性 参看 习题 7.13。 
通过 将 如 此 定义 的 缺失 数据 加 入 到 可 观察 数据 中 ， 最 大 似 然 估 计 问 题 被 大 大 地 简化 了 。 
更 确切 地 说 ， 在 给 定 了 x, 和 参数 向 量 9 的 情况 下 , + £(d,, 24 |x, OREH d, 和 zj 组 成 
的 完整 数据 的 条 件 概 率 密度 函数 ， 我 们 可 以 写成 


fldi,z 1x,0) = HH re )fi (4a.)) (7.69) 
其 中 f(d ) 是 在 给 定 选择 HME 模型 专家 (j， DRR F di 的 条 件 概 率 密度 函数 ，fi. (i) 由 
Gauss 分 布 


hldi) = Fop -Cd - yh id (7.70) 


给 出 。 注 意 公式 (7.69) 对 应 于 一 个 假想 实验 ， 它 含有 由 z 包 表示 的 实际 不 可 观察 的 指示 器 变 
量 。 无 论 如 何 ， 完 整数 据 问 题 的 对 数 似 然 函数 对 应 于 整个 训练 集 由 

L.(0) = log[ 本 Ad ze | x, ,0)] = log[ If II TT (ee? fa) ] 
Noaoa sehen tal (7.71) 
=% 之 dpe [loggt? + loggi, + logfi (d;)] 


k=1 


给 出 。 用 式 (7. 70) 代 入 式 (7. 71) 且 忽略 常数 - (1/2)log(2x)， 因 此 可 以 写成 
L,(@) = DID IE: P [loggi + loge’ - (a; - Yk oye] (7.72) 

比较 式 (7.72) 和 式 (7.65) ， 通 过 将 指示 器 变量 作为 缺失 数据 加 入 到 可 观察 的 数据 集中 ， 立 即 
看 出 所 获得 的 计算 上 的 好 处 : 最 大 似 然 估计 问题 被 解 耦 为 针对 单个 专家 的 一 组 回归 问题 和 针 
对 门 网 的 一 组 可 分 离 的 多 项 式 分 类 问题 。 

为 了 继续 应 用 EM 算法 ， 通 过 求 完整 数据 对 数 似 然 函数 L,(9) 的 期 望 值 我 们 首先 启动 下 
步 ， 表 示 为 

0(0,6(n)) = E[L(0)] 


DY DY SAL] (logg + loge -a - x} 
其 中 针对 指示 器 变量 求 期 望 值 ， 因 为 z 名 是 惟一 不 可 观察 的 变量 。 因 此 ， 用 式 (7.68) 代 人 式 
(7.73), #21] (Jordan and Jacobs, 1994) 


(7.73) 
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Q(0,0(n)) = > > Das (loge? + logget - Fld, - yy "| (7.74) 
该 算法 的 M 步 要 求 对 8 求 0(6,6 (n) ) 的 最 大 值 。 参 数 向 量 8 KWAR: AR 
于 门 网 而 另 一 组 属于 专家 。 从 前 面 的 讨论 注意 下 面 的 事实 : 
。 专家 的 突 触 权 值 决定 yE, CHA hh 名 的 定义 中 。 因 此 专家 仅仅 通过 项 AY (ad; - 
yE 影响 表达 式 QC (2). 
。 门 网 的 突 触 权 值 决 定 概 率 gy ， MRP 。 门 网 仅仅 通过 项 AY ogg? + logge fh) 
响 表达 式 0(8,6 (n)) 的 。 
因此 ， 在 一 个 两 层 结构 的 HME 中 算法 的 M 步 简化 为 三 个 最 优化 问题 ， 


N 

wa(n +1) = arg min SAY (d, 一 yp)? (7.75) 

a(n +1) = arg max ax >, 2, hs loggi” (7.76) 

385 a,(n+1) = arg max > Dap D aoge (7.77) 


在 式 (7.75) 至 (7.77) 的 最 优化 中 ， 是 固定 的 ; h BAE — 1B AL, 但 是 并 不 对 求 
导数 。 另 外 也 要 注意 这 些 等 式 右边 的 所 有 量 都 是 指 时 间 步 n 时 的 取 值 。 

式 (7.75) 中 关于 专家 的 最 优化 是 加 权 的 最 小 平方 估计 问题 。 剩 下 的 式 (7.76) 和 (7.77) 关 
于 门 网 的 最 优化 问题 是 最 大 似 然 估计 问题 时 。 注 意 ， 虽 然 这 些 公式 只 是 针对 两 层 结 构 的 ， 但 
是 它们 很 容易 扩充 到 任意 多 层 的 结构 中 去 。 


7.14 小 结 和 讨论 


在 建 模 、 模 式 分 类 和 回归 问题 的 研究 中 ， 有 两 个 极端 情况 需要 考虑 : 
1. 简单 模型 ， 它 提供 对 感 兴趣 问题 的 见解 ， 但 缺乏 精确 度 。 
2. 复杂 模型 ， 该 模型 提供 精确 结果 但 缺乏 见解 。 
单个 的 模型 既 简 单 又 精确 也 许 是 不 可 能 的 。 在 本 章 的 第 二 部 分 ，CART 是 一 个 简单 模型 
的 例子 ， 该 模型 用 硬 决 策 将 输入 空间 分 割 成 一 系列 子 空间 ， 每 个 子 空间 有 自己 的 专家 。 不 幸 
的 是 ， 硬 决策 的 使 用 带 来 一 些 信息 的 损失 ， 因 而 带 来 性 能 上 的 损失 。 在 另 一 个 方面 ， 多 层 感 
知 器 (MLP) 是 用 好 套 非 线 性 形式 保持 训练 数据 信息 的 复杂 模型 。 但 是 ， 它 使 用 黑 盒 方法 用 单 
个 函数 整体 拟 合 数据 ， 因 而 缺乏 对 问题 的 见解 。HME 模型 ， 代 表 一 种 动态 类 型 的 委员 会 机 
器 ， 是 两 个 极端 之 间 的 一 种 折 中 模型 ， 有 着 MLP 和 CART 的 共同 特征 : 
。 HME 模型 的 结构 和 CART 类 似 ,但 不 同 之 处 在 于 前 者 是 对 输入 空间 的 软 分 割 ， 而 后 
者 是 硬 分 割 。 
。 HME 模型 类 似 于 MP 使 用 艇 套 的 非 线 性 形式 ， 但 不 是 为 了 输入 - 输出 映射 的 目的 ， 
而 是 为 了 输入 空间 的 分 割 。 
在 本 章 我 们 强调 用 于 设计 HME 模型 的 两 种 工具 的 使 用 : 
。 在 处 理 模型 选择 问题 的 时 候 ，CART 是 作为 结构 基础 
。 EM 算法 是 通过 和 迭代 计算 模型 参数 的 最 大 似 然 估计 值 来 解决 参数 估计 问题 的 。 
EM 算法 经 常 能 保证 似 然 值 向 上 (uphil) 移 动 。 因 而 ， 通 过 使 用 7.8 节 描 述 的 方式 应 用 
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CART 去 初始 化 EM 算法 ， 可 以 期 望 EM 算法 能 产生 的 泛 化 性 应 该 比 CART 算法 建立 的 初始 条 
件 产生 的 泛 化 性 能 好 。 

假如 感 兴趣 的 应 用 是 最 大 似 然 估计 ， 比 如 在 建 模 中 ，EM 算法 是 重要 的 和 基本 的 。 一 个 
有 意思 的 建 模 应 用 在 Jacobs , Jordan and Barto(1991b) 中 描述 ， 其 中 一 个 ME 模型 被 训练 去 完成 
“什么 /哪里 "任务 。 在 这 个 任务 中 ， 模 型 被 要 求 去 决定 目标 是 什么 ,目标 在 可 视 区 域 的 什么 
地 方 。 在 学 习 的 过 程 中 ， 应 用 了 两 个 专家 ， 它 们 中 的 每 一 个 是 专门 承担 任务 的 一 个 方面 。 对 
于 一 个 特定 的 输入 ， 两 个 专家 都 会 产生 输出 。 但 是 ， 由 门 网 决定 对 输入 适当 的 混合 。Jacobs 
等 人 的 报告 的 成 功 结果 表明 ， 决 定 任务 分 配 的 本 质 可 能 是 基于 在 任务 的 要 求 和 模型 的 计算 属 
性 之 间 的 匹配 ， 而 不 是 基于 任务 本 身 (Flman et al. ,1996)。 

这 个 讨论 以 返回 本 章 第 一 部 分 学 习 过 的 另外 一 类 委员 会 机 器 的 研究 作为 结束 。ME 和 
HME 模型 依赖 于 使 用 由 输入 信号 激活 的 门 网 来 融合 被 模型 中 的 专家 所 获得 的 知识 ; 但 是 一 
个 基于 总 体 平 均 或 者 推举 的 委员 会 机 器 ， 依 赖 于 学 习 算 法 本 身 去 做 整合 ， 归 纳 如 下 : 

1. 总 体 平均 通过 对 以 下 两 个 措施 的 结合 以 一 种 聪明 的 方式 提高 它 的 误差 性 能 : 

。 归结 为 偏 置 的 误差 减少 ， 通 过 有 意识 地 过 拟 合 委员 会 机 器 中 的 单个 的 专家 。 

。 归结 于 方差 的 误差 减少 ， 通 过 在 训练 单个 专家 时 使 用 不 同 的 初始 条 件 ， 然 后 总 体 平 

均 各 自 的 输出 。 

2. 推举 通过 本 身 独 特 的 方法 来 提高 误差 性 能 。 在 这 种 情况 下 ， 只 要 求 单个 专家 的 性 能 
比 随机 猜想 稍微 好 一 点 。 专 家 的 弱 学 习 模 型 被 转化 成 强 学 习 模 型 ， 因 而 该 委员 会 机 器 的 误差 
可 以 变 得 任意 小 。 取 得 这 种 非凡 的 转化 是 通过 某 种 方式 对 输入 数据 的 分 布 进行 过 滤 ， 使 得 弱 
学 习 模块 ( 即 专家 ) 最 终 学 到 整个 分 布 ， 或 者 如 同 自 举 那 样 ， 通 过 根据 一 定 的 概率 分 布 对 训练 
样本 进行 重 采 样 。 自 举 比 通过 过 滤 的 推举 的 优越 之 处 在 于 它 的 训练 例子 的 数目 是 固定 的 。 


注释 和 参考 文献 


[1] 在 Perrone(1993) 中 讨论 总 体 平均 方法 ， 其 中 包括 该 主题 的 大 量 文献 。 有 关 这 个 主题 的 
其 他 参考 文献 包括 Wolpert(1992) 和 Hashem(1997)。 

[2] 几 个 神经 网 络 先驱 者 建议 使 用 不 同 初始 条 件 的 总 体 平均 设计 委员 会 机 器 。 但 是 ,在 
Naftaly et al.《1997) 中 给 出 的 统计 分 析 以 及 那里 描述 的 由 初始 条 件 空间 的 总 体 平均 设计 
训练 委员 会 机 器 的 过 程 看 来 是 其 中 第 一 次 。 在 那 篇 文章 中 ， 基 于 太阳 黑子 数据 和 能 
量 - 预测 竞争 数据 得 出 实验 结果 。 在 两 种 情况 下 对 初始 条 件 空间 求 平 均值 显示 方差 显 
著 下 降 。 
根据 Naftaly et al.(1997)， 在 用 初始 条 件 空间 的 总 体 平均 设计 委员 会 机 器 时 不 提 佛 使 用 
流行 的 诸如 权 值 衰减 和 早期 停止 等 训练 约束 条 件 。 

[3] 推举 理论 的 主要 参考 文献 和 相关 的 实验 研究 以 时 间 为 序 或 前 或 后 可 排序 如 下 : Schapire 
(1990), Drucker et al.(1993,1994), Freund(1995), Breiman(1996b), Freund and Schapire 
(1996a, 1996b, 1997) , Schapire( 1997) #fl Schapire et al. (1997)。 关 于 推举 的 三 个 基本 方法 
的 首 批 参 考 文献 分 别 如 下 : 

。 滤波 : Schapire( 1990) 
。 重新 采样 Freund and Schapire(1996a) 
。 重新 加 权 : Freund(1995) 
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[4] 


[5] 


[6] 


[7] 


[8] 


Jacobs, Jordan, Nowlan 和 Hinton 在 他 们 1991a 的 文章 中 首次 讨论 利用 混合 专家 实现 复杂 

映射 函数 的 思想 。 这 个 模型 的 发 展 归 功 于 (1)Nowlan(1990) 提 出 的 一 个 建议 ; 将 非 监督 

学 习 的 竞争 自 适 应 看 作 试 图 使 简单 概率 分 布 的 混合 拟 合 一 组 数据 ，(2) 在 Jacobs(1990) 

的 博士 学 位 论文 中 利用 相似 的 组 件 结构 和 不 同 的 代价 函数 所 发 展 的 思想 。 

最 大 似 然 估 计 器 有 一 些 希 望 的 性 质 。 在 相当 一 般 条 件 下 可 以 证 明 下 列 渐进 性 质 

(Kmenta, 1971): 

(让 最 大 似 然 估计 器 是 相 容 的 。 令 L(98) 表 示 对 数 似 然 函 数 ，0, 为 参数 向 量 6 的 分 量 : 
偏 导 数 9L/90, 称 为 分 值 。 我 们 说 一 个 最 大 似 然 函数 估计 器 是 相 容 的 指 的 是 使 得 分 值 
931/90; 等 于 0 时 6, 的 取 值 随 估计 中 样本 趋 于 无 穷 而 依 概率 收敛 到 4, 的 真实 值 。 

(ii) 最 大 似 然 估计 器 是 渐进 有 效 的 。 也 就 是 


| - 6, J) 


lim n 对 所 有 i 


其 中 ON 为 样本 数目 ，6, 为 0, 的 最 大 似 然 估计 ， 而 且 J; 为 Fisher 43 & 4E H Ax) Bt RE 
的 第 i 个 对 角 元 素 。Fisher 信息 和 矩阵 定义 为 





PL 
el SR El 36-56 tl | 323] 
2 9? 
J=- bh elal 和 ela, ] 
EL 39,59, is A E| Idy AL] _ sl 
其 中 M 为 参数 向 量 6 的 维 数 。 


( 道 ) 最 大 似 然 函数 估计 器 是 渐进 Gauss 的 。 也 就 是 ， 当 样本 数 趋 于 无 穷 时 ， 最 大 似 然 估 
H 6 的 每 一 个 元 素 为 Gauss 分 布 。 

实际 上 ， 我 们 发 现 最 大 似 然 函 数 估计 器 的 大 样本 (渐进 ) 性 质 对 样本 数 N > 50 就 保持 得 

相当 好 。 

Newcomb( 1886) 的 文章 考虑 两 个 单 变 元 Gauss 分 布 的 混合 参数 估计 ， 看 起 来 这 是 文献 报 

告 中 最 早 的 一 个 EM 类 型 过 程 的 参考 文章 : 

“EM 算法 ”的 名 称 由 Dempster, Laird 和 Rubin 在 他 们 1977 奠基 性 的 文章 中 创造 的 。 在 那 

篇 文章 中 第 一 次 给 出 不 同 推广 层次 下 从 不 完整 数据 中 计算 最 大 似 然 估计 的 EM 算法 的 

公式 。 

Mclachlan and Krishnan(1997) 以 书 的 形式 第 一 次 统一 考虑 EM 算法 的 理论 、 方 法 和 应 用 ， 

它 的 历史 以 及 推广 。 

在 相当 一 般 条 件 下 EM 算法 计算 的 似 然 值 收敛 到 稳定 值 。Wu(1983) 给 出 EM 算法 收敛 

性 质 的 详细 考虑 。 但 是 EM 算法 并 不 总 是 导致 似 然 函 数 的 局 部 或 全 局 最 大 值 。 在 

McLachlan and Krishnan(1997) #5 HBAS 3 章 ， 给 出 两 个 不 收敛 的 例子 ， 在 一 个 例子 

中 算法 收敛 到 鞍点 ， 而 在 另 一 个 例子 中 算法 收敛 到 似 然 函 数 的 局 部 最 小 值 。 

利用 参数 向 量 的 先 验 信息 ，EM 算法 也 可 以 处 理 Bayes 最 大 后 验 (maximum a posterior， 

MAP) 估 计 ; 参看 习题 7.11。 利 用 Bayes 规则 ， 对 于 给 定 一 组 观察 x 可 以 把 参数 向 量 8 
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的 条 件 密度 函数 表示 为 
faa) = BELLO 

由 这 个 关系 ， 我 们 能 够 看 出 最 大 化 后 验 密 度 fo (Ol x) FHT THK OR PRE fx (x10) fo (0), 
因为 x(x) 是 独立 于 68 的。 概率 密度 函数 js(9) 表 示 8 的 可 用 先 验 信息 。 给 定 x 之 后 最 
大 化 概率 密度 函数 fe(81x) 提 供 参 数 向 量 8 的 最 可 能 估计 。 在 这 种 估计 的 背景 下 有 两 点 
值得 注意 : 

。 对 686 极 大 化 fx(x18) 表 示 最 大 似 然 估计 ， 是 最 大 后 验 估计 的 简化 形式 ， 简 化 的 意思 

是 不 用 先 验 信息 。 

。 使 用 先 验 信息 与 正则 化 是 同步 的 ， 这 (回忆 第 5 章 ) 相 当 于 光滑 的 输入 -输出 映射 。 
Waterhouse et al. (1996) 给 出 混合 专家 模型 用 于 估计 参数 的 Bayes 框架 ， 那 里 描述 的 
Bayes 方法 克服 了 著名 的 “过 拟 合 "现象 ， 当 用 最 大 似 然 函 数 推断 时 “过 拟 合 ” 导 致 具有 高 
方差 的 估计 。 

L9] 在 式 (7.76) 和 (7.77) 中 描述 的 最 大 似 然 估 计 问 题 可 用 一 个 有 效 算法 ， 称 为 迁 代 重新 加 

权 最 小 二 乘 (iteratively reweighted least-squares, IRLS) 算 法 ， 关于 RLS 算法 的 描述 可 参看 
McCullagh and Nelder(1989) 。 


习题 
总 体 平 均 


7.1 考虑 由 天 个 专家 组 成 的 委员 会 机 器 。 第 上 个 专家 的 输入 -输出 函数 表示 为 Fi (x)， 
其 中 x 为 输入 向 量 ，k = 1,2,，…, 天 。 每 个 专家 各 自 输 出 的 线性 组 合 形成 总 的 输出 ， 定 义 为 


y= Dy wF, (x) 
其 中 w 是 赋值 给 F(x) 的 线性 权 值 。 要 求 估 计 w; 的 值 使 得 y 提供 了 相应 于 x 的 期 望 输出 
d 的 最 小 平方 估计 。 给 定 训 练 数据 集 |(x;, d 1X1, Ru, 的 所 需 值 解决 这 个 参数 估计 问 
题 。 
推举 
7.2 ”比较 通过 过 滤 的 推举 和 自 举 在 计算 上 的 优 缺 点 。 
7.3 通常 ， 推 举 在 弱 学 习 模型 ( 即 具 有 相对 低 泛 化 误差 率 的 学 习 模型 ) 表 现 最 好 。 但 是 ， 
假设 给 你 一 个 强 学 习 模 型 ， 即 具有 高 泛 化 误差 率 的 学 习 模 型 。 若 你 处 理 大 小 固定 的 训练 样 
本 ， 这 时 怎样 通过 过 滤 推 举 和 自 举 处 理 这 种 情况 ? 
混合 专家 
7.4 考虑 分 段 线性 任务 EH 
Fe aaa) (te x, =1 
Mis Spero = 3xs + 2x +x, -3+e Bx, =-1 
为 了 比较 ， 利 用 下 列 网 络 配置 : 
1. 多 层 感知 器 :“10->10>1” 网 络 
2. 混合 专家 : PIR: 10>2 








专家 网 络 : 10>1 

比较 这 两 个 网 络 的 计算 复杂 性 。 

7.5 式 (7.30) 的 条 件 概率 密度 函数 描述 的 ME 模型 是 基于 标量 回归 模型 ， 其 中 误差 是 具 
有 零 均 值 单 位 方差 的 Gauss 分 布 。 

(a) 对 于 对 应 于 多 重 回归 模型 的 ME 模型 的 更 一 般 情 况 ， 重 新 构造 这 个 等 式 的 公式 ， 其 

中 期 望 响 应 是 具有 多 维 数 9 的 向 量 ， 而 误差 是 具有 有 零 均 值 和 协 方差 矩阵 为 马 的 多 元 
Gauss 分 布 。 

(b) 这 个 重新 构造 公式 的 ME 模型 和 图 7-8 所 示 的 ME 模型 如 何不 同 ? 

7.6 推导 用 于 训练 混合 专家 模型 的 随机 梯度 算法 。 
分 层 混 合 专家 

7.7 (a) 构 造 具 有 三 层 的 HME 模型 的 框图 ， 假 设 模型 利用 二 又 决策 树 。 

(b) 对 (a) 中 描述 的 HME 模型 的 非 终 端 节 点 写 出 后 验 概率 。 说 明 在 求 这 些 概 率 值 所 涉及 
的 计算 的 递归 性 。 

(c) 对 (a) 中 描述 的 HME 模型 ， 构 造 条 件 概率 密度 函数 的 公式 。 

7.8 讨论 HME 模型 和 径 向 基 函 数 (RBF) 网 络 的 相似 之 处 和 不 同 之 处 。 

7.9 对 于 具有 两 层 的 HME 模型 的 训练 ， 推 导 描 述 它 的 随机 梯度 算法 的 方程 。 假 设 该 模 
型 应 用 二 叉 决 策 树 。 
EM 算法 和 它 在 HME 模型 中 的 应 用 

7.10 证 明 在 式 (7.62) 中 描述 的 EM 算法 的 单调 上 升 性 质 。 为 了 这 个 推导 ， 做 下 面 的 事 : 

(a) 令 
f.@ 10) 
fo(d | 8) 
RAE d 和 参数 向 量 6 时 扩充 后 的 完全 数据 向 量 r 的 条 件 概率 密度 函数 ， 因 
而 不 完整 数据 对 数 似 然 函数 可 表示 为 

L(0) = L,(®) - logk(r | d,@) 

其 中 L.(8) = logf, (r16) 为 完全 数据 的 对 数 似 然 函 数 。 给 定 d, Mr 的 条 件 分 布 取 
L(8) 的 期 望 值 ， 证 明 


k(r | d,0) = 





L(®) = Q(0,0(n)) - K(8,6(n)) 
其 中 K(0,6(n)) = Ellogk(ri d,6)] 
因而 证 明 
L(6(n + 1)) -Zn))= [Q(6(n + 1),6(n)) - 0(6(n),6(n))] - 
[ K(@(n + 1),6(n)) - K(6(n),6(n)) ] 
(b) 若 g( A RK, u 为 随机 变量 Jensen 不 等 式 可 陈述 为 
Elg(u)] > g(Elu]) 
其 中 E 为 期 望 算 子 ; MAF g(: ) 为 严格 凸 ， 那 么 等 式 成 立意 味 着 以 概率 1 有 并 = 
E[ u](Cover and Thomas,1991 )。 利 用 Jensen 不 等 式 证 明 
K(@(n + 1),6(n)) - K(6(n),6(n)) <0 

从 而 证 明 式 (7.62) 对 n = 1,2,… 成 立 。 

7.11 EM 算法 很 容易 修改 ， 使 之 适用 于 参数 向 量 6 的 最 大 后 验 (MAP) 估 计 。 利 用 Bayes 
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规则 ， 修 改 EM 算法 玉 - 步 和 M- 步 提供 这 个 估计 。 

7.12 对 于 给 定 任务 ， 用 EM 算法 训练 HME 和 利用 反 向 传播 算法 训练 MLP 达到 相似 水 
平 的 性 能 ， 直 观 上 我 们 希望 HME 超过 MLP 的 计算 复杂 性 。 给 出 支持 或 反对 这 个 陈述 合理 性 
的 论证 。 

7.13 判断 式 (7.66) 至 (7.68) 描 述 的 指示 器 变量 和 相应 的 后 验 概率 关系 的 合理 性 。 

7.14 假设 期 望 响 应 d 是 标量 ， 式 (7.75) 描 述 图 7-11 中 HME 模型 的 专家 网 络 的 加 权 最 
小 平方 最 优化 。 当 期 望 响 应 为 多 维 时 怎样 修改 这 种 关系 ? 





第 8 章 主 分 量 分 析 


8.1 简介 


神经 网 络 的 一 个 重要 特征 就 是 它们 具有 向 环境 学 习 并 通过 学 习 改 善本 身 性 能 的 能 力 。 在 
前 面 四 章 中 主要 讨论 了 监督 学 习 的 算法 ， 外 部 教师 为 它们 提供 一 组 有 意义 的 目标 。 目 标 采 取 
期 望 输入 - 输出 映射 的 形式 ， 要 求 网 络 对 这 个 映射 进行 盘 近 。 在 本 章 和 后 面 的 三 章 中 ， 我 们 
学 习 自 组 织 学 习 (self-organized leaming) 或 无 监督 学 习 (unsupervised leaming)。 自 组 织 学 习 的 目 
的 是 为 了 发 现 输入 数据 中 的 重要 模式 和 特征 ， 而 这 些 发 现 是 无 教师 的 。 为 了 这 样 做 ， 系 统 需 
要 提供 一 组 局 部 性 的 规则 ， 这 些 规则 能 使 它 学 会 计算 具有 特殊 期 望 性 质 的 输入 - 输出 映射 。 
术语 “局 部 "意味 突 触 权 值 的 改变 只 与 邻近 单元 的 状态 有 关 。 用 于 自 组 织 学 习 的 神经 网 络 结构 
模型 比 用 于 监督 学 习 的 模型 更 接近 生物 神经 系统 模型 。 这 并 不 奇怪 ， 因 为 网 络 组 织 的 过 程 是 
脑 组 织 过 程 的 基础 。 

自 组织 结 构 有 各 种 各 样 的 形式 。 例 如 ， 它 可 能 由 一 个 输入 ( 源 ) 层 和 输出 (表示 ) 层 组 成 ， 
输入 层 到 输出 层 之 间 有 前 馈 连 接 ， 输 出 层 各 单元 间 有 侧 向 连接 。 另 一 个 例子 是 前 馈 网 络 ， 由 多 
层 组 成 ， 其 中 自 组 织 是 以 层 到 层 为 基础 进行 的 。 在 上 述 两 个 例子 中 ， 学 习 过 程 都 是 按照 预定 的 
规则 和 对 输入 (激活 ) 模 式 的 响应 重复 修改 系统 中 的 所 有 突 触 权 值 ， 直 到 形成 一 种 最 终 设置 。 

本 章 只 讨论 基于 Hebb 学 习 的 自 组 织 系统 ， 主 要 集中 于 主 分 量 分 析 (principal components 
analysis)， 这 是 统计 模式 识别 和 信号 处 理 中 进行 数据 压缩 通用 的 一 种 标准 方法 。 


本 章 的 组 织 


本 章 的 材料 组 织 如 下 。 在 8.2 节 用 定性 论据 描述 自 组 织 系 统 的 基本 原理 。 随 后 在 8.3 节 
中 介绍 主 分 量 分 析 ， 这 也 是 本 章 其 余部 分 讨论 的 自 组织 系 统 的 基础 。 

在 掌握 基本 背景 材料 后 ， 接 下 来 学 习 一 些 具 体 的 自 组 织 系 统 。8.4 节 描述 由 单个 神经 元 
组 成 的 简单 系统 ， 它 以 自 组 织 方式 抽出 第 一 个 主 分 量 。8.5 节 将 讨论 更 复杂 的 系统 ， 它 为 具 
有 前 馈 连接 的 单 层 网 络 形式 ， 通 过 对 以 前 简单 系统 的 扩展 ， 抽 出 所 有 的 主 分 量 。 在 8.6 节 将 
给 出 一 个 关于 图 像 编码 的 具体 实例 演示 这 个 过 程 。8.7 节 将 阔 述 另 一 个 具有 相似 功能 的 自 组 
织 系 统 ， 这 个 系统 更 加 复杂 ， 因 为 它 包 含 侧 向 连接 。 

在 8.8 节 中 给 出 利用 神经 网 络 进行 主 分 量 分 析 的 各 种 算法 的 分 类 。 随 后 8.9 节 在 数据 分 
类 的 基础 上 将 算法 分 成 自 适应 方法 和 集中 式 方法 。 

在 8.10 节 描述 主 分 量 分 析 基 于 内 积 核 思 想 的 非 线 性 形式 ， 内 积 核 按 照 第 6 章 的 支持 向 
量 机 模型 中 讨论 的 Mercer 定理 定义 。 

在 8.11 节 以 对 主 分 量 分 析 的 一 些 最 后 思考 结束 本 章 。 


8.2 自 组 织 的 一 些 直观 原则 
像 前 面 提 到 的 那样 ， 自 组 织 ( 无 监督 ) 学 习 按 照 预 定 的 规则 和 对 激活 模式 的 响应 重复 修改 
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神经 网 络 的 突 触 权 值 ， 直 到 形成 一 种 最 终 设置 。 当 然 ， 问 题 的 关键 是 ， 怎 样 从 自 组织 中 形成 
一 个 有 用 的 设置 。 答 案 本 质 上 来 自 于 下 面 的 观察 (Turing,1952) : 


局 部 相互 作用 可 以 导致 整体 的 序 。 


这 个 观察 具有 重要 意义 ; 它 适 用 于 脑 和 人 工 神 经 网 络 。 尤 其 ， 网 络 相 邻 神经 元 之 间 许 多 最 初 
随机 的 局 部 作用 ， 能 够 结合 成 整体 有 序 的 状态 ， 并 最 终 在 空间 模式 或 时 间 节 奏 上 形成 连贯 行 
为 ; 这 些 是 自 组 织 的 本 质 。 

网 络 组 织 在 两 个 不 同 层次 的 发 生 ， 两 个 层次 之 间 以 反馈 环 的 形式 相互 作用 。 这 两 个 层次 
为 : 

。 活动 性 。 由 给 定 网 络 对 输入 信号 的 响应 产生 某 种 活动 模式 。 

。 连接 性 。 由 于 突 触 可 塑性 ， 网 络 连 接 强 度 ( 突 触 权 值 ) 由 于 响应 活动 模式 中 的 神经 信 

号 得 以 修改 。 . 

为 了 达到 网 络 的 自 组 织 ( 而 非 稳 定 )， 在 突 触 权 值 变 化 和 活动 模式 变化 之 间 的 反馈 必须 是 
正 的 。 因 此 ， 可 以 得 到 自 组 织 系 统 的 第 一 个 基本 原则 (von der Malsburg, 1990a) : 

原则 1 突 触 权 值 的 修改 趋向 于 自 增强 。 

突 触 权 值 的 修改 必须 基于 局 部 可 用 信号 ， 即 前 突 触 和 后 突 触 的 信号 ， 自 增强 过 程 被 这 种 
要 求 所 限制 。 自 增强 和 局 部 性 的 要 求 确定 这 样 的 机 制 ， 强 的 突 触 导致 前 突 触 信号 和 后 突 触 信 
号 相 一 致 。 通 过 这 种 一 致 性 又 使 突 触 的 强度 增加 。 这 里 所 描述 的 机 制 实际 上 是 Hebb 学 习 假 


. 设 的 重 述 。 


为 了 使 系统 稳定 ， 必 须 存在 对 有限" 资源 (例如 输入 的 数量 和 能 量 资源 ) 的 一 些 竞争 形 
式 。 具 体 地 ， 网 络 中 的 一 些 突 触 强度 增加 必须 以 其 他 突 触 的 减弱 来 补偿 。 因 此 ， 只 有 “成 功 ” 
的 突 触 才能 生长 ， 而 不 成 功 的 将 减弱 并 最 终 消失 。 从 这 个 观察 结果 可 得 到 自 组 织 的 第 二 个 原 
则 (von der Malsburg, 1990a) : 

原则 2 资源 的 有 限 导致 突 触 间 竞争 ， 从 而 导致 牺牲 其 他 突 触 来 选择 最 活跃 ( 即 最 适合 ) 
的 生长 突 触 。 

突 触 的 可 塑性 也 使 这 一 原则 成 为 可 能 。 

对 下 一 步 的 观察 ， 我 们 注意 单个 突 触 不 能 有 效 地 产生 满意 的 结果 。 为 了 达到 上 述 效 果 ， 
需要 一 组 突 触 间 的 协作 ， 而 这 些 突 触 聚集 于 一 个 特定 的 神经 元 且 带 有 足够 强大 的 相同 信号 以 
激活 该 神经 元 。 因 此 我 们 可 以 抽象 出 第 三 个 自 组 织 原 则 (von der Malsburg, 1990a) : 

原则 3 突 触 权 值 的 修改 趋向 于 协作 。 

尽管 网 络 中 存在 竞争 ,活跃 突 触 的 出 现 能 够 增强 其 他 突 触 的 适应 。 这 种 协作 形式 的 出 现 
可 能 归 因 于 突 触 的 可 塑性 ， 或 妇 因 于 外 部 环境 中 出 现 适 宜 的 条 件 同 时 刺激 前 突 触 神经 元 

上 面 所 描述 的 三 个 自 组 织 原 则 只 与 网 络 本 身 有 关 。 然 而 为 了 自 组 织 学 习 执行 有 用 的 信息 
处 理 功能 ， 环 境 提供 给 网 络 的 激活 模式 中 必须 存在 兄 余 (redundanecy) JER PEKER 10 章 
Shannon 信息 论 框 架 中 讨论 。 现 在 足以 提出 自 组 织 学 习 的 最 后 一 个 原则 如 下 (Barnow,1989): 

原则 4 激活 模式 中 次 序 和 结构 表示 宛 余 信息 ， 神 经 网 络 以 知识 的 形式 得 到 这 些 元 余 信 
息 ， 这 是 自 组 织 学 习 的 必要 前 提 。 

我 们 可 以 从 统计 参数 的 观测 中 获得 这 些 知识 ， 例如， 从 输入 数据 的 均值 、 方 差 和 相关 甜 
阵 。 
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关于 自 组 织 学 习 的 原则 1 至 原则 4 为 本 章 讨论 主 分 量 分 析 和 下 一 章 描述 Kohonen 自 组 织 
映射 的 自 适应 算法 提供 神经 生物 学 的 基础 。 这 些 原 则 在 其 他 许多 受 神经 生物 学 考虑 激励 的 自 
组 织 模 型 中 也 被 采用 。 值 得 一 提 的 这 样 一 种 模型 是 哺 
乳 .动物 视觉 系统 的 Linsker 模型 (Linsker,1986) 。 


自 组 织 的 特征 分 析 


视觉 系统 中 的 信息 处 理 是 分 阶段 的 。 具 体 地 ， 一 
些 简单 的 特征 如 对 比 度 和 边缘 方向 是 在 系统 的 早期 阶 
段 分 析 的 ， 而 更 精致 复杂 的 特征 则 在 后 期 阶段 进行 分 
析 。 图 8-1 表示 与 视觉 系统 相似 的 模型 网 络 的 整体 结 
构 。 在 Linsker 的 模型 中 ， 图 8-1 的 网 络 神经 元 组 织 成 
二 维 层 ， 从 一 层 到 下 一 层 具 有 局 部 前 馈 连 接 。 每 个 神 
经 元 只 接受 前 一 层 位 于 一 个 覆盖 区 内 有 限 数目 神经 元 
的 信息 ， 此 区 域 称 为 接受 域 (receptive field)。 网 络 接 
受 域 在 突 触 的 形成 过 程 中 起 关键 作用 ， 因 为 它们 使 一 
层 中 的 神经 元 对 前 一 层 神 经 活动 的 空间 相关 性 的 反应 
成 为 可 能 。 假 设 下 面 两 个 结构 特征 : 





1. 在 整个 神经 元 形成 过 程 中 ， 一 旦 突 触 连接 被 选 。 “县 z 层 
择 ， 其 位 置 就 固定 了 。 © 
2. 每 个 神经 元 都 是 一 个 线性 组 合 器 。 图 8-1 自 适应 网 络 组 件 布局 


模型 结合 Hebb 型 突 触 修改 的 协作 和 竞争 学 习 的 方面 使 得 网 络 输出 最 优 区 分 输入 总 体 ， 
这 需要 通过 自 组 织 学 习 从 一 层 到 一 层 的 基础 上 处 理 。 即 学 习 过 程 在 处 理 下 一 层 之 前 允许 全 面 
形成 该 层 自身 的 自 组 织 特征 - 分 析 (feature-analyzing) 特 性 。 在 Linsker(1986 ) 中 模拟 结果 与 猫 
和 猴子 的 视觉 形成 的 早期 具有 非常 相似 的 性 质 。 认 识 到 视觉 系统 的 高 度 复 杂 性 ， 而 Linsker 
考虑 的 非常 简单 的 模型 能 形成 相似 的 特征 - 分 析 神 经 元 ， 这 的 确 值得 注意 。 此 点 并 非 意味 着 
哺乳 动物 的 视觉 系统 的 特征 - 分析 神 经 元 形成 的 方式 与 上 面 的 Linsker 模型 描述 的 方式 完全 
相同 。 相 反 ， 它 只 能 说 明 按照 Hebb 学 习 规则 形成 突 触 权 值 ， 再 由 这 种 相对 简单 的 层 状 网 络 
就 可 产生 这 种 结构 。 

但 是 ， 在 本 章 中 我 们 主要 的 兴趣 是 主 分 量 分 析 和 利用 基于 Hebb 学 习 的 自 组 织 系统 怎样 
实现 它 。 
8.3 主 分 量 分 析 


在 统计 模式 识别 中 ， 一 个 常见 的 问题 就 是 特征 选择 或 特征 提取 。 特 征 选择 是 指 将 数据 空 
间 变 换 到 特征 空间 的 过 程 ， 在 理论 上 与 原始 数据 空间 具有 相同 的 维 数 。 然 而 ， 我 们 希望 设计 
一 种 变换 使 得 数据 集 由 维 数 较 少 的 有效” 特征 来 表示 ， 而 不 减少 原始 数据 所 包含 的 内 在 信息 
AS; 换 名 话说， 数据 集 进行 了 维 数 压缩 。 具 体 来 说 ,假设 有 一 个 m ENE x, 希望 压缩 
BLE, 其 中 1< m。 如 果 我 们 简单 截断 x， 所 带 来 的 均 方 误差 等 于 会 掉 的 各 分 量 的 方差 之 
和 。 因 此 提出 下 面 的 问题 : 是 否 存在 一 个 可 逆 的 线性 变换 T， 使 得 对 Tx 的 截断 在 均 方 误差 
意义 下 最 优 ? 显然 要 求 变换 后 的 某 些 分 量具 有 较 低 的 方差 。 主 分 量 分 析 (principal components 
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analysis， 在 通信 理论 中 也 叫 Karhunen-Loeve 变换 ) 能 最 大 程度 地 减少 方差 ， 并 因而 是 正确 的 选 
择 。 在 本 章 我 们 讨论 基于 Hebb 学 习 算 法 来 完成 数据 向 量 的 主 分 量 分 析 吕 。 
令 义 为 表示 环境 的 m 维 随机 向 量 。 假 设 习 均值 为 零 ， 即 
E(X] =0 
其 中 EE 是 统计 学 习 中 的 期 望 运算 符 。 如 果 XX 的 均值 不 是 0， 在 执行 分 析 之 前 先 减 去 其 均值 。 
令 gq 表示 m 维 单位 向 量 , 义 在 其 上 投影 。 这 个 投影 被 定义 为 向 量 匀 和 gq 的 内 积 ， 表 示 为 
A = X7q = q’X (8.1) 
满足 约束 条 件 
lal = (q’q)'’? = 1 (8.2) 
投影 4 也 是 随机 变量 ， 其 均值 和 方差 与 和 的 统计 有 关 。 由 假设 X 的 均值 为 0， 推 知 4 的 均 
值 也 为 0: 
ELA] = q’E[X] = 0 
4 的 方差 与 其 均 方 值 相同 ， 可 写 为 
o = E[A’] = E[(q’X)(X"q)] = q’E[XX"]q = q7Rq (8.3) 
mx m JERE R 是 随机 向 量 义 的 自 相 关 和 矩阵 ， 正 式 定义 为 向 量 久 和 它 自己 的 外 积 的 期 望 ， 
表示 为 


R = E[XX7] (8.4) 
我 们 观察 到 相关 和 矩阵 及 是 对 称 的 ， 即 
R7 =R (8.5) 
由 这 个 性 质 知 ， 如 果 a 和 为 任意 mxl, A 
a’Rb = b’Ra (8.6) 
由 式 (8.3) 看 出 ， 投 影 4 的 方差 So 是 单位 向 量 q 的 函数 ， 可 以 写 为 
pa) =o = q’Rq (8.7) 
基于 此 我 们 可 以 认为 p(q) 为 方差 探 针 (variance probe). 


主 分 量 分 析 的 特征 结构 


下 面 讨 论 的 问题 是 在 欧 几 里 德 范 数 的 约束 条 件 下 ， 找 出 单位 向 量 q 沿 J(q) 所 具有 的 极 
(extremal) 值 或 稳定 (stationary) 值 (局 部 最 大 或 最 小 )。 这 个 问题 的 解决 依赖 于 输入 向 量 的 相关 
FEE R 的 特征 结构 。 如 果 q 为 单位 向 量 使 得 方差 探 针 y(q) 具 有 极 值 ， 那 么 对 单位 向 量 q 任 
意 小 的 扰动 aq， 我 们 发 现 直 到 5q 的 一 阶 项 将 有 

pa + 6q) = $(q) (8.8) 
现在 ， 从 式 (8.7) 给 出 的 方差 探 针 定义 ,我 们 有 
plq + èq) = (q+8q) Rda+sq) = q’Rq + 2(8q)"Rq + (3q)7R3q 
在 第 2 个 等 式 中 ,已 经 利用 式 (8.6)。 忽 略 项 (5q) Ro 并 利用 式 (8.7) 的 定义 ， 可 以 写成 
pCa + dq) = q’Rq + 2(6g)’Rg = J(q) +2(03q)7Rq (8.9) 
因此 将 式 (8.8) 代 入 式 (8.9) 得 
(èg) Rg = 0 (8.10) 

对 q 而 言 ， 任 意 扰动 5q 是 不 允许 的 ; 相反 对 扰动 进行 限制 ， 仅 使 + 3q 的 欧 几 里 德 范 

BON 1 的 扰动 是 允许 的 ， 即 
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llq+8qll =1 
或 等 价 地 
(q + òg) (q+ òq) = 1 
因此 ， 根 据 式 (8.2) ， 我 们 要 求 对 8q 的 一 阶 项 有 
(3q)"q = 0 (8.11) 
这 意味 着 ， 扰 动 dq 必须 与 g 正 交 ， 因 此 仅 在 q 的 垂直 方向 上 变化 是 允许 的 。 

通常 单位 向 量 q 在 物理 意义 上 是 无 量 纲 的 。 从 而 如 果 结 合式 (8.10) 和 (8.11)， 那 么 我 们 
必须 在 式 (8.11) 中 引入 一 个 比例 因子 使 得 它 和 相关 和 矩阵 R 中 的 元 素 有 相同 的 量 纲 。 于 是 可 
以 写成 

(8q)"Rq - A(8q)"q = 0 
或 等 价 地 (òq) (Rq - Aq) =0 (8.12) 
式 (8.12) 成 立 的 充 要 条 件 为 
Rq = Aq (8.13) 
这 个 方程 控制 单位 向 量 g 使 得 方差 探测 值 wd) 有 极 值 。 

式 (8.13) 被 认为 是 特征 值 问 题 ， 通 常 在 线性 代数 中 碰 到 (Strang,1980 )。 仅 对 特殊 的 入 
值 问题 有 非 平凡 解 ( 即 qz0) ， 入 被 称 为 相关 和 矩阵 R 的 特征 值 ， 对 应 的 q 被 称 为 特征 向 量 。 
相关 和 矩阵 的 特征 值 必 须 是 非 负 数 。 假 设 它 的 特征 值 互 不 相同 ， 则 对 应 的 特征 向 量 是 惟一 
的 。 令 mx m 和 矩阵 R 的 特征 值 为 入, ,… ,XA ， 对 应 的 特征 向 量 分 别 是 qi ,gq ,…,q,。 我 
们 可 写成 


Rg; = ÀQ, j= 1,2,…,m (8.14) 
令 相应 特征 值 按 降序 排列 ， 即 
>M >N> Àm (8.15) 
TORE Ay = hws。 令 对 应 的 特征 向 量 用 于 构成 一 个 m x m 和 矩阵 
Q = [qi ea ee PA (8.16) 
我 们 可 以 结合 式 (8.14) 中 的 m 个 方程 为 一 个 方程 组 : 
RQ = QA (8.17) 
其 中 A ARH REA RN AE, BD 
A = diagih Mes Aj st An] (8.18) 
矩阵 QEEX( EE, BREECH RNIB) BEEARSH: 
g'g; = [> yet (8.19) 
7 0, ji 
式 (8.19) 要 求 不 同 的 特征 值 。 等 价 地 ， 可 写成 
QQ=I 
由 此 可 以 推导 出 矩阵 Q UE SCA BA], ERN 
Q = Q“ (8.20) 
这 意味 着 可 以 重 写 (8.17) 为 众所周知 的 正 交 相似 变换 形式 
Q’RO=A (8.21) 


或 展开 为 
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(8.22) 


入; k=j 
q Ra, = | 


0， kJ 
式 (8.21) 的 正 交 相似 ( 西 ) 变 换 将 相关 和 矩阵 R 变 成 特征 值 对 角 阵 。 相 关 和 矩阵 R 可 以 用 特征 值 
和 特征 向 量 表示 为 


R = Aaa (8.23) 
isl 


这 称 为 谱 定 理 。 对 所 有 i, IE dg 的 秩 为 1。 

式 (8.21) 和 (8.23) 是 相关 矩阵 R 的 特征 分 解 (eigendecomposition) 的 两 个 等 价 表示 。 

主 分 量 分 析 和 和 矩阵 R 的 特征 分 解 从 根本 上 来 说 是 一 致 的 ， 只 是 从 不 同 的 方面 观察 问题 。 
从 式 (8.7) 和 (8.23) 可 以 看 出 方差 探 针 和 特征 值 的 确 相 等 ， 表 示 为 

pqa) =N, 7=12 mn (8.24) 

现在 ， 从 主 分 量 分 析 的 特征 结构 中 我 们 可 以 概括 两 个 重要 发 现 : 

1. 零 均 值 的 随机 向 量 X MARE R 的 特征 向 量 定义 为 单位 向 量 g, REEDE, 
着 它们 方差 探 针 y(qj ) 取 得 极 值 。 

2. 相应 的 特征 值 定义 方差 探 针 Wu ) 的 极 值 。 


基本 数据 表示 


令 数据 向 量 * 为 随机 向 量 义 的 实现 。 
由 于 单位 向 量 g 有 m 个 可 能 的 解 ， 我 们 发 现 数 据 向 量 x 有 m 个 可 能 的 投影 需要 考虑 。 
特别 地 ， 从 式 (8.1) 我 们 注意 
a,=qx=x'q;, j= 1,2,-",m (8.25) 
其 中 a 是 x 在 单位 向 量 uw 所 表示 的 主 方向 上 的 投影 。a REEDE, M x 具有 相同 的 物理 
量 纲 。 式 (8.25) 的 公式 被 看 作 是 一 个 分 析 。 
为 了 从 投影 ao 中 准确 重建 原始 数据 向 量 x， 我 们 可 以 采取 下 面 的 步 邓 0。 首 先 ， 将 一 组 
投影 1&1j=1,2,… ,mi 组 合成 一 个 单一 的 向 量 ， 表 示 为 
a = [aaan = [gx ,x dn] = Q’x (8.26) 
接着 我 们 在 式 (8.26) 的 两 边 左 乘 矩 阵 Q， 再 利用 式 (8.20) 的 关系 。 因 此 ， 原 始 数据 向 量 x 可 
重建 如 为 


Ms: 


x= Qa = ajq; (8.27) 
它 可 被 看 合成 公式 。 在 这 种 意义 上 ， 单 位 向 量 q 表示 数据 空间 一 组 基 。 确 实 ， 式 (8.27) 只 是 
一 个 坐标 变换 ， 根 据 该 变换 数据 空间 中 的 点 x 变换 到 特征 空间 的 点 a。 
维 数 减 缩 


从 统计 模式 识别 的 观点 看 ， 主 分 量 分 析 的 实际 价值 在 于 它 为 维 数 减 缩 提供 有 效 的 方法 。 
具体 地 ， 通 过 丢弃 式 (8.27) 中 方差 小 的 项 ， 保 留 方差 大 的 项 ， 可 以 减少 有 效 数 据 表 示 所 需 的 
特征 的 数量 。 令 和 Ag A, 表示 相关 矩阵 R 的 前 ! 个 最 大 特征 值 。 我 们 截断 式 (8.27) 中 的 / 
项 后 面 的 展开 式 可 以 得 到 数据 向 量 x 的 近似 
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i 
R= >) 44) = 1g ,9 


对 给 定 的 原始 数据 向 量 x， 可 以 用 式 (8.25) 计 算得 到 保留 在 式 (8.28) 中 的 主 分 量 如 下 : 
a,j [E 


a, q 


从 R" 到 R 的 线性 投影 ( 即 从 数据 空间 到 
特征 空间 的 上 映射) 是 对 数据 向 量 x 近似 表 
示 的 编码 器 ， 如 图 8-2a 所 示 。 相 应 地 ， 从 
R 到 R 的 线性 投影 ( 即 特征 空间 到 数据 
空间 的 上 映射) 表示 为 对 原始 数据 向 量 x 近 
似 重 构 的 解码 器 ， 如 图 8-2b 所 示 。 注 意 式 
(8.28)、(8.29) 中 描述 的 优势 ( 即 最 大 ) 特 
IEA A, ,和 并 不 参加 计算 ， 它 们 只 是 
分 别 决定 编码 器 和 解码 器 所 使 用 的 主 分 量 
的 数量 。 

逼近 误差 向 量 e 等 于 原始 数据 向 量 x 
AEE ie] RE, Bp 


e=x- (8.30) 
将 式 (8.27) 和 (8.28) 代 入 式 (8.30) 得 
e = aq (8.31) 
jel+l 


误差 向 量 e 和 通 近 数据 向 量 龟 是 正 交 的 ， 
如 图 8-3 所 示 。 换 句 话 说 , 名 和 的 内 积 
为 零 。 利 用 式 (8.28) 和 (8.31) 这 个 性 质 可 
以 表示 如 下 : 

J 24 44 


e'f = 
i =1 


iM Ee 


i=l+l jel 


S Daa agg = 0 (8.32) 


,qi | „Jism 


a; 


(8.28) 


(8.29) 





b) 


图 8-2 主 分 量 分 析 的 两 阶段 说 明 
a) 编码 b) 解 码 


0 x 


图 8-3 Mx, CHB & 
误差 向 量 e 的 关系 示例 


其 中 我 们 利用 了 式 (8.19) 的 第 二 个 条 件 。 式 (8.32) 称 作 正 交 性 原理 。 
由 式 (8.7) 和 (8.22) 的 第 一 行 ， 数 据 向 量 x 的 mm 个 分 量 的 总 方差 为 


So 
其 中 og 是 第 7 个 主 分 量 HAH. Mes AY 


个 元 素 的 总 方差 为 


(8.33) 
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Ye = = Da (8.34) 
TERA x- RHR- m) RICH EW 
be - Ds (8.35) 


FFEA, ，…,》。 是 相关 矩阵 R 的 特征 值 中 最 小 的 (m -中 个 特征 值 ; 在 用 于 重 构 和 逼近 向 量 
旬 的 式 (8.28) 中 丢弃 了 它们 所 对 应 的 项 。 这 些 特征 值 越 接 近 0， 降 维 (对 x 进行 主 分 量 分 析 所 
导致 的 结果 ) 后 保存 原始 数据 中 的 信息 量 就 越 有 效 。 因 此 ， 为 了 对 输入 数据 进行 维 数 缩减 ， 
我 们 计算 输入 数据 向 量 的 相关 矩阵 及 的 特征 值 和 特征 向 量 ， 然 后 将 原始 向 量 投影 到 m 个 优 
势 特征 值 对 应 的 特征 向 量 生 成 的 子 空间 。 这 种 数据 表示 方法 通常 称 为 子 空间 分 解 (Oija， 
1983). 

8.1 双 变 量 数据 集 ”为 了 说 明 主 分 量 分 析 的 应 用 ， 考虑 双 变量 (二 维 ) 数 据 集 的 例 
子 ， 如 图 8-4， 其 中 假设 两 个 特征 轴 的 标 度 近似 相同 。 图 中 水 平 轴 和 垂直 轴 表 示 数 据 集 的 自 
然 坐标 轴 。 标 号 为 1 和 2 旋转 坐标 轴 是 应 用 这 个 数据 集 的 主 变量 分 析 产 生 的 结果 。 从 图 8-4 
可 以 看 出 数据 集 投影 到 1 号 轴 上 抓 住 了 数据 的 主要 特征 ， 即 具有 双 峰 ( 即 在 它 的 结构 上 有 两 
个 聚 类 ) 的 特点 。 的 确 ， 数 据 投影 到 轴 1 的 方差 比 投影 到 别 的 轴 上 的 大 。 相 反 ， 当 映射 到 轴 
2 时， 数据 内 在 的 双 峰 特征 完全 模糊 。 





0 2 4 6 8 


图 8-4 二 维 平面 的 一 组 数据 ， 它 们 投影 到 两 个 轴 1 和 2 的 密度 图 
投影 到 轴 1 有 最 大 方差 ， 清 楚 表 明 数 据 的 双 峰 或 聚 类 特征 


从 这 个 简单 的 例子 中 可 以 得 到 一 个 重要 的 结论 。 虽 然 ， 带 有 聚 类 结构 的 数据 集 在 带 有 水 

平 轴 和 垂直 轴 的 二 维 平面 图 上 很 明显 ， 但 在 实际 中 并 不 总 是 这 样 。 在 更 一 般 的 高 维 数据 集 
中 ， 可 以 想像 数据 固有 的 聚 类 结构 被 隐藏 ， 要 想 看 到 它 必 须 进 行 与 主 分 量 分 析 相 似 的 统计 分 

析 (Linsker,1988a ) 。 a 
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8.4 基于 Hebb 的 最 大 特征 滤波 器 


自 组 织 神经 网 络 的 行为 和 主 分 量 分 析 的 统计 方法 之 间 存 在 密切 的 联系 。 在 本 节 ， 我 们 将 
通过 建立 一 个 著名 的 结果 来 证 实 这 个 关系 : 突 触 权 值 采用 Hebb 自 适应 规则 的 单个 线性 神经 
元 能 够 形成 关于 输入 分 布 第 一 个 主 分 量 的 x(n) 
过 滤器 (Oja,1982) 。 

为 了 继续 这 个 证 明 ， 先 考虑 如 图 8-Sa 
所 示 的 简单 模型 。 该 模型 在 模型 输出 为 它 
的 输入 的 线性 组 合 这 个 意义 下 是 线性 的 。 
神经 元 通过 m 个 分 别 具 有 权 值 ol ,wz ,，.….， 
wa 的 突 触 来 接收 m 个 输入 信号 xi， x (n) 
Xaser Xn ARR E y 为 a) 


y(n) 





y = È, wa (8.36) x; x(n) 

注意 这 里 描述 的 情形 ， 我 们 仪 处 理 单个 神 
经 元 ， 所 以 不 需要 用 双 下 标 表示 网 络 突 触 
权 值 。 

根据 Hebb 学 习 的 假设 ， 当 前 突 触 信 
号 x, 和 后 突 触 信号 y 一 致 时 ， 突 触 权 值 随 
时 间 逐 步 加 强 。 具 体 地 ， 可 写成 

w;(n +1) = w;(n) + ny(n)x,;(n), 


é 





b) 


i = 1,2,…,m (8.37) 图 8-5 最 大 特征 滤波 器 信号 流 图 表示 
其 中 n 表示 离散 时 间 1 是 学 习 率 参 数 a) 式 (8.36) 的 图 b) 式 (8.41) 和 (8.42) 的 图 


但 是 ， 这 个 学 习 规则 的 基本 形式 会 导致 突 触 权 值 w 无 限 地 增 大 ， 这 在 现实 上 是 不 能 接受 的 。 
在 罕 触 权 值 自 适应 学 习 规 则 中 采用 某 种 程度 的 饱和 度 或 归 一 化 ， 可 以 解决 这 个 问题 。 利 用 归 
一 化 方法 具有 在 神经 元 的 突 触 权 值 闻 由 于 有 限 资源 导致 竞争 的 效果 ， 从 自 组 织 的 原则 2， 这 
是 稳定 性 的 关键 。 从 数学 上 来 考虑 ， 方便 的 归 一 化 形式 描述 如 下 (Oja,1982) : 


w;(n) + ny(n)x;(n) 
wn +0) = eT Cn) + ya NTT” 
其 中 分 母 的 求 和 是 针对 神经 元 的 所 有 突 触 权 值 。 假 设 学 习 率 参数 1 很 小 ， 可 以 将 式 (8.38) 展 
开 成 ?的 寡 级 数 形式 ， 所 以 写成 
w(n+1) = w,(n) + ny(n)[x;(n) - y(n) w;,(n)] + O(7) (8.39) 
其 中 Of RRA f MER KB. AA yi), VAR, REAR (8.38) BI n 
的 一 阶 项 如 下 : 


(8.38) 





w(n+1) = w,(n) + ny(n)[ x(n) - y(n)w(n)] (8.40) 
式 (8.40) 右 端的 项 y(n)x;(n) 表 示 突 触 权 值 通常 的 Hebb 修改 变 ， 这 符合 自 组 织 原则 1 描绘 
的 自 放大 效果 。 依 据 原则 2， 该 式 中 含有 负 项 - y(n)w(n) 导 致 稳定 ; 它 修改 输入 x,(n) 成 
一 种 依赖 于 相应 突 触 权 值 w,(n) 和 输出 y(n) 的 形式 ， 表 示 为 








[405] 
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x(n) = x(n) - y(n) w;(n) (8.41) 
Xx‘i《n) 可 以 视 为 第 i 个 突 触 的 有 效 输入 。 我 们 可 以 由 式 (8.41) 的 定义 重 写 式 (8.40) 的 学 习 规 
则 如 下 : 
wi(n+1) = w(n)+ny(n)x(n) (8.42) 
神经 元 的 整体 操作 可 由 两 个 信号 流 图 的 组 合 来 表示 ， 如 图 8-5 所 示 。 根 据 式 (8.36) ， 图 
8-5a 的 信号 流 图 表明 输出 y(n ) 依 束 于 权 值 w(n),w,(n),…,w(n)。 图 8-5b 的 信号 流 图 提 
供 式 (8.41) 和 (8.42) 的 图 像 ， 图 中 的 传递 参数 z-!' 表 示 单 位 延迟 操作 符 。 在 图 8-5a 中 所 产生 
的 输出 y(n) 在 图 8-5b 中 作为 传递 系数 。 图 8-5b 清楚 地 展示 作用 于 神经 元 的 内 部 反馈 的 下 
列 两 种 形式 
。 根据 外 部 输入 x,(n)， 自 放大 的 正 反馈 使 得 突 触 权 值 w,(n) 增 加 。 
。 由 于 -y(n) 的 负 反 馈 控制 w,(n) 的 增 大 ， 因 此 导致 突 触 权 值 w,(n) 的 稳定 。 
乘积 项 - y(n)w(n) 与 在 学 习 规则 中 经 常用 到 的 遗忘 因子 或 泄漏 因子 有 关 ， 但 存在 差 
Bl: 对 于 较 强 的 响应 y(n), 遗忘 因子 变 得 更 加 显著 。 这 种 控制 现象 有 神经 生物 上 的 支持 
(Stent, 1973)。 


算法 的 矩阵 形式 


为 了 描述 上 的 方便 ， 令 
x(n) = [xi(n), x(n), x, (n)]" (8.43) 
和 W(P) =[w(n),w2(n) =, wa (n)]" (8.44) 
输入 向 量 x(n) 和 突 触 权 值 向 量 w(n) 通 常 都 是 随机 向 量 的 实现 。 用 这 个 向 量 符号 可 以 重 写 式 
(8.36) 为 内 积 形 式 如 下 : 


y(n) = x (nwn) = w'(n)x(n) (8.45) 
同样 地 ， 可 以 重 写 式 (8.40) 为 
wn+1) = wn) + ny(n)[ x(n) - y(n)w(n)] (8.46) 


HSK (8.45) FLA (8.46) 49 

win +1) = win) + nl x(n)x?(n)w(n) - w'(n)x(n)x’(n)w(n)w(n)] (8.47) 

式 (8.47) 所 示 的 学 习 算 法 为 非 线 性 随机 差分 方程 ， 这 使 得 该 算法 的 收敛 性 分 析 在 数学 上 
很 难 进行 。 为 了 得 到 收敛 性 分 析 ， 我 们 先 简单 介绍 随机 逼近 算法 收敛 分 析 的 一 般 工 具 。 


渐进 稳定 性 定理 


式 (8.47) 表 示 的 自 组 织 算法 是 一 般 的 随机 逼近 算法 
wn +1) = wn) + n(n)h(w(n),x(n)), n = 0,1,2,°", (8.48) 

的 一 种 特殊 形式 。 序 列 站 ) 是 一 个 正 的 标量 序列 。 

更 新 函数 (update function)h(*,*) 是 具有 某 些 正则 性 条 件 的 确定 性 函数 。h(:,:) 和 标量 
序列 人 1) 完全 确定 算法 的 具体 结构 。 

这 里 描述 的 过 程 的 目的 是 将 随机 非 线 性 差分 方程 (8.48) 和 确定 性 的 常 微分 方程 (ODE) 联 
系 起 来 。 于 是 微分 方程 的 稳定 性 和 算法 的 收敛 性 联系 在 一 起 。 这 个 过 程 是 很 一 般 的 工具 ， 具 
有 很 广 的 用 途 。 这 分 别 由 Ljung(1977) 与 Kushner and Clark(1978) 独 立 提出 ， 但 用 不 同方 法 人 1。 
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为 了 开始 ， 过 程 假设 式 (8.48) 描 述 的 随机 逼近 算法 满足 下 面 的 条 件 ( 用 我 们 的 术语 表 


1.7(z) 为 下 降 的 正 实数 序列 ， 使 得 我 们 有 


(a) Dn) =œ% (8.49) 
(b) Sn) <% Xf p> (8.50) 
(e) nn)>0 H n> (8.51) 


2. 参数 向量 序列 ( 突 触 权 值 )w(') 有 界 的 概率 为 1。 
3. 更 新 函数 hw, x) Xt w 和 x 连 续 可 微 ， 且 其 导数 在 时 间 上 一 致 有 界 。 
4. 对 每 个 w 存在 极限 


h(w) = lim EL h(w, X) ] (8.52) 
统计 期 望 运算 符 E 对 随机 向 量 义 操作 ，X 的 实现 由 x 表示。 
5. 常 微分 方程 
wi) = h(w(t)) (8.53) 


具有 局 部 浙 进 稳定 解 (Lyapunov 意义 下 )， 其 中 t 表示 连续 时 间 ，Lyapunov 意义 的 稳定 性 在 第 
14 章 讨论 。 

6. 令 q 表示 式 (8.53) 的 解 ， 具有 吸引 域 哆 (q); 吸引 域 在 第 14 章 定义 。 那 么 参数 向 量 w 
(n) 以 概率 1 经 常 无 穷 次 进入 吸引 域 钢 (q) 的 紧 子 集 %。 

这 里 撕 述 的 6 个 条 件 都 是 合理 的 。 具 体 地 ， 条 件 1(a) 是 使 算法 在 任意 初始 条 件 下 能 够 将 
估计 值 移 到 期 望 极限 的 必要 条 件 。 条 件 1(b) 给 定 n(n) 趋 向 0 有 多 快 的 条 件 ; 这 比 常用 的 条 
件 


MT (n) < œ 

的 限制 更 少 。 条 件 4 使 一 个 微分 方程 与 式 ( 8.48) 所 示 的 算法 相 联 系 成 为 可 能 的 基本 假设 。 

考虑 递归 等 式 (8.48) 描 述 的 随机 通 近 算法 ， 它 满足 假设 1 至 6。 那么 我 们 可 以 陈述 这 类 
随机 表 近 算法 的 渐进 稳定 性 定理 如 下 (Ljung,1977; Kushner and Clark, 1978) : 

limw( n) =Q 以 概率 1 2 经 常 无 限 地 成 立 (8.54) 

但 是 ， 我 们 强调 这 里 描述 过 程 虽然 提供 关于 算法 (8.48) 的 渐进 性 质 的 信息 ， 但 它 并 没有 
告诉 我 们 迭代 次 数 n 应 该 选 多 大 才能 使 分 析 结 果 可 用 。 此 外 ， 在 利用 式 (8.48) 算 法 解决 时 变 
参数 向 量 的 问题 时 ， 要 求 

nn)—>0 4 n-> œ 

是 不 可 行 的 ， 这 由 条 件 1(c) 规 定 。 我 们 可 以 通过 指定 | 的 一 个 很 小 的 正 数 来 克服 后 面 这 个 困 
难 ， 指 定 的 数 的 大 小 由 应 用 决定 。 随 机 远近 算法 在 神经 网 络 的 实际 应 用 中 经 常 这 样 做 。 


最 大 特征 滤波 器 的 稳定 性 分 析 


在 稳定 性 的 ODE 方法 中 ， 我 们 具备 研究 由 式 (8.46) 表 示 的 递归 算法 的 收敛 行为 所 需 的 
工具 ， 正 如 这 里 的 描述 ， 这 个 递归 算法 与 最 大 特征 滤波 器 相关 。 








[三 
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为 了 满足 渐进 稳定 性 定理 的 条 件 1， 我 们 令 
y(n) = 1 
其 次 ， 从 式 (8.47) 注 意 更 新 函数 h(w，x) 由 
h(w,x) = x(n)y(n)- y (n)w(n) 
= x(n)x'(n)w(n) - [w'(n)x(n)x"(n)w(n) |w(n) 
定义 ， 很 显然 它 满足 定理 条 件 3。 在 更 新 函数 A(w.X) PASS BX 的 一 个 实现 x 得 到 
式 (8.55)。 由 条 件 4， 我 们 对 六 求 取 Aw, XOMBA, Ais me 
h = limE[X(n)X"(n)w(n) - (w"(n)X(n)X"(n)w(n))w(n) |] 


(8.55) 


(8.56) 
= Rw( œ) — [w"( œ )Rw( œ )]w( æ) 
其 中 R 是 随机 向 量 义 表示 的 随机 过 程 的 相关 和 矩阵 ，w( % ) 是 突 触 权 值 向 量 的 极限 值 。 
由 条 件 5 并 根据 式 (8.53) 和 (8.56)， 我 们 寻找 非 线 性 微分 方程 
Lwli) = h(w(t)) = Rwlt) - [w’(2)Rw(1) ws) (8.57) 
的 稳定 点 。 根 据 相 关 和 矩阵 R EM SERIE CE w(t) REFR 
w(t) = $o. (q (8.58) 


其 中 q 是 R 的 第 个 归 一 化 特征 向 量 ， 系数 MOETE wE q, 上 的 时 变 投影 。 将 式 
(8.58) 代 入 式 (8.57)， 并 使 用 基本 定义 





Rq: = 和 dg 
和 q; Raq, =A, 
其 中 和》 是 与 q; 相关 的 特征 值 ， 最 后 我 们 得 到 
> D. Og, = NaDa 一 [Ag] AOL (8.59) 
等 价 地 ， 我 们 可 写成 
wie = A,0,(¢) -0 Ct) DAGO), k = 1,2,-"-,m (8.60) 


AAT OATHS SR (8.48) BY BEL IE A AE) A £48 X (principal mode) 64, (t) 的 
常 微分 方程 组 (8.60) 的 系统 稳定 性 分 析 。 

依赖 于 对 下 标 所 赋 给 的 值 ， 可 分 为 两 种 情况 。 情 况 1 对 应 于 1 < < m。 和 情况 IXE 
Fk=1; m 为 x(n) 和 w(n) 的 维 数 。 依 次 考虑 这 两 种 情况 。 

RI 1<%<m。 为 处 理 这 种 情况 我 们 定义 


0 (1) 
a(t) = a(t)’ l<k<m (8.61) 


首先 假设 9(1) 头 0， 若 初 始 值 w(0) 随 机 选取 ， 这 以 概率 1 为 真 。 对 式 (8.61) 两 边 对 时 间 i 求 
导数 得 到 
da,(t) 1 d0,(t) 6,(t) d6,(t) 
d TAG) dt TEG) dt 
1 d6,(t) a,(t) dð (t) 1 k 
=a dt  6(t) dt’ “Em 





(8.62) 
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其 次 ， 将 式 (8.60) 代 入 式 (8.62)， 利 用 式 (8.61) 的 定义 并 化 简 结 果 ， 我 们 得 到 


dels) =— (A, ~ Apa (Ct), l<kem (8.63) 

(i FAR BME R 的 特征 值 互 不 相同 且 按 降序 排列 ， 则 有 
A >A > > Ap > >A, >0 (8.64) 
由 此 推 知 特征 值 之 差 和 -和 为 正 ， 在 式 (8.63) 中 表示 一 个 时 间 常 数 的 倒数 。 所 以 ， 从 情况 1 发 现 : 
a,(t) +0 “to MPl<kem (8.65) 


情况 五 上 = 1。 从 式 (8.60) 可 知 ， 这 第 二 种 情况 由 微分 方程 


ao, TIGRES DARO = = N0) -AP — 6,(t) 2 6 (1) 
(8.66) 


= a8, (t) - AG (2) 一 F(t) Sadli) 


描述 。 然 而 ， 从 情况 I 我 们 知道 ， 当 i> olf, 对 于 7 关 1，w 一 0。 因 此 ， 当 :趋向 无 穷 大 
时 ， 式 (8.66) 右 端的 最 后 一 项 接近 0。 忽 略 此 项 ， 式 (8.66) 简 化 为 


AW -Nb(OI -GO 对 tw (8.67) 


但 是 必须 强调 ， 只 在 渐进 意义 下 式 (8.67) 成 立 。 

方程 (8.67) 表 示 自 治 系统 ( 即 系统 不 显 式 依赖 于 时 间 )。 这 样 一 种 系统 的 稳定 性 最 好 由 称 
为 Lyapunov 子 数 的 正定 函数 处 理 ，Lyapunory 函数 的 具体 地 处 理 细节 在 第 14 章 介绍 。 令 s 表示 
自治 系统 的 状态 向 量 ，V(i) 表 示 系 统 的 Lyapunov 消 数 。 如 果 满 足下 列 条 件 ， 则 系统 的 平衡 
状态 5 是 渐进 稳定 的 : 





d 
ait) < 0 WseuUu-—s 


其 中 %L 为 的 小 邻 域 。 
对 当前 的 问题 ， 我 们 断言 微分 方程 (8.67) 有 一 个 由 
V(t) = [6(t) - 1/7 (8.68) 
定义 的 Lyapunov 铺 数 。 为 了 证 实 这 个 断言 ， 必 须 证 明 V(1) 和 需要 满足 下 面 两 个 条 件 : 
1. W) co 对 所 有 t (8.69) 
2.V(1) 具 有 最 小 值 (8.70) 
在 式 (8.68) 中 对 RES 
to = 40. (EO (1) - 4 aR (R(t) -1P 对 于 1 oo (8.71) 


其 中 在 第 一 个 等 式 利用 了 式 (8.67)。 en a 是正 的 ， 从 式 (8.71) 发 现 ， 当 1 BELS 
大 时 ， 式 (8.69) 的 条 件 为 真 。 此 外 ， 从 式 (8.71) 知 Y(i) 在 9(i) = 上 1 处 具有 最 小 值 ( 即 
Ke) =0)， 所 以 式 (8.70) 的 条 件 也 满足 。 因 此 我 们 可 以 用 下 列 陈述 结束 情况 I AT: 


0(t)—>+l1 当 上 -~> oœ (8.72) 
根据 式 (8.72) 中 描述 的 结果 和 式 (8.71) 的 定义 ， 可 以 重新 陈述 式 (8.65) 中 情况 I 的 结果 
的 最 终 形式 : 
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0,(t) +0 当 上 一 oo WRi<kem (8.73) 
从 情况 I 和 工 的 分 析 作 出 的 全 面 结论 是 两 方面 的 : 
。 式 (8.47) 描 述 的 随机 逼近 算法 仅 主 模式 收敛 于 6 (ti)， 算 法 的 其 他 所 有 模式 将 衰减 为 0。 
。 模式 6) 收敛 于 +1。 
因此 ， 渐 进 稳定 性 定理 的 条 件 5 满足 。 特 别 ， 依 据 式 (8.58) 的 展开 式 ， 可 以 正式 地 陈述 
wt)>q H t — œ 
其 中 q EXER R 的 最 大 特征 值 X 对 应 的 归 一 化 特征 向 量 。 
根据 渐进 稳定 性 定理 的 条 件 6， 我 们 必须 证 明 对 存在 所 有 向 量 集合 的 子 集 双 满足 
limw(n) = q ”以 概率 1 无 限 地 经 常 成 立 
为 了 这 样 做 ， 我 们 必须 满足 条 件 2， 这 可 通过 硬性 限制 w(n) 的 项 ， 使 它们 的 幅度 值 小 于 立 
值 c。 我 们 可 以 定义 w(m) 的 范 数 为 


mT | w(n) || = max|w; (7) | <a (8.74) 
令 A 是 民 ” 的 压缩 子 集 ， 由 一 个 范 数 小 于 等 于 a 的 向 量 集 定义 。 可 以 直接 证 明 (Sanger, 


1989b)。 
如 果 | wn) 上 <a， 且 常数 a 足够 大 ， 则 上 wn+1)| < ll wn) | 以 概率 1 成 立 。 


于 是 ， 随 着 和 迭代 次 数 n 的 增 大 ，w(n) 将 最 终 进 入 4 内 并 以 概率 1 留 在 4% 内。 因为 吸引 域 
Bq, ) 包 括 所 有 有 界 范 数 的 向 量 ， 因 此 有 AE 久 (qi )。 换 句 话 说 ， 条 件 6 满足 。 

现在 渐进 稳定 性 定理 的 所 有 6 个 条 件 都 满足 了 ， 因 此 证 明 ( 满 足 前 面 提 到 的 假设 ) 随 机 逼 
近 算 法 (8.47) 将 使 w(n) 以 概率 1 收敛 于 特征 向 量 q ，g 是 与 相关 和 矩阵 R 的 最 大 特征 值 对 
应 的 特征 向 量 。 这 不 仅 是 算法 的 固定 点 ， 而 且 是 惟一 的 渐进 稳定 点 。 


基于 Hebb 最 大 特征 滤波 器 的 性 质 小 结 


刚才 给 出 的 收敛 分 析 只 证 明 由 式 (8.39) 或 等 价 地 式 (8.46) 的 自 组 织 学 习 规 则 控制 的 单个 
线性 神经 元 自 适 应 地 抽取 平稳 输入 的 第 一 个 主 分 量 。 这 第 一 个 主 分 量 对 应 于 随机 向 量 X(n) 
的 相关 和 矩阵 的 最 大 特征 值 \, ; 事实 上 N 与 模型 输出 y(n) 的 方差 有 关 ， 如 下 所 示 。 
令 @(n) 表 示 随 机 变量 Y(n) 的 方差 ，y(n) 表 示 Y(n) 的 一 次 实现 ， 即 
o(n) = ELY (n)] (8.75) 
其 中 由 于 输入 均值 为 零 ，Y(n) 具 有 0 均值 。 在 式 (8.46) 中 令 n> oF BA w(n) 趋 向 于 qq 
的 事实 ， 我 们 得 到 
x(n) = y(n)q Xt n—> om 
利用 这 个 关系 ， 可 以 证 明 当 迭代 次 数 BE Font, JŽ s(n) 趋向 于 入 ; 参见 习题 8.2。 
总 之 ， 其 运行 由 式 (8.46) 描 述 的 基于 Hebb 的 线性 神经 元 以 概率 1 收敛 于 一 个 固定 点 ， 
它 具 有 如 下 的 特征 (Oja, 1982) : 
1. 模型 输出 的 方差 趋向 于 相关 和 矩阵 R 的 最 大 特征 值 ， 表 示 为 
limo (n) = ay (8.76) 
2. 模型 的 突 触 权 值 向 量 趋向 相关 的 特征 向 量 ， 表 示 为 
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limw(n) =q (8.77) 

H lim lwa) || =1 (8.78) 

这 些 结果 均 假 设 相关 和 矩阵 R BIEN, H RARA A, 的 重 数 为 1。 这 些 结果 也 
适用 于 具有 和 > 0 且 重 数 为 1 AEE KES R。 

例 8.2 匹配 滤波 器 ”考虑 随机 向 量 X(n) 组 成 如 下 : 

X(n) = s+ V(n) 
其 中 s 为 固定 单位 向 量 ， 表 示 信 号 分 量 ，V(z) 为 零 均 值 的 白 噪声 分 量 。 输 入 向 量 的 相关 矩 
阵 为 
R = E[X(n)X’(n)] = ss’ + oI 

其 中 c 是 噪声 向 量 V(n) 元 素 的 方差 ,I 是 单位 矩阵 。 因 此 相关 矩阵 R 的 最 大 特征 值 


Aalto 
对 应 的 特征 向 量 qi 为 
q =s 
容易 证 明 ， 在 这 种 情况 下 这 个 解 满足 特征 值 问题 
Rq, = àq 
因此 ， 对 于 本 例 描 述 的 情况 ， 自 组 织 线性 神经 元 (从 收敛 到 它 的 稳定 条 件 ) 充 当 一 个 匹配 的 滤 
波 器 ， 其 冲击 响应 (由 突 触 权 值 表示 ) 与 输入 向 量 X(n) 的 信号 分 量 s 匹配 。 E 


8.5 基于 Hebb 的 主 分 量 分 析 


上 一 节 中 基于 Hebb 的 最 大 特征 滤波 器 抽出 输入 的 第 一 个 主 分 量 。 这 个 单线 性 神经 元 模 
型 可 以 扩展 到 单 层 线性 神经 元 的 前 人 馈 网 络 ， 目 的 在 于 对 输入 
进行 任意 大 小 的 主 分 量 分 析 (Sanger, 1989b ) 。 

具体 地 ， 考 虑 如 图 8-6 所 示 的 前 馈 网 络 。 假 设 具 有 下 面 
两 个 结构 属性 : . 

1. 网 络 输出 层 的 每 个 神经 元 是 线性 的 。 

2. 网 络 有 m 个 输入 和 1 个 输出 ， 它 们 都 是 指定 的 。 另 
外 ， 网 络 输出 少 于 输入 ( 即 1 < m)。 

网 络 接受 训练 的 仅 有 突 触 权 值 集 | w; 1}， 它 们 将 输入 层 的 
源 节 点 i 和 输出 层 计算 节点 j 连接 起 来 ， 其 中 i =1,2,…,m 图 8-6 ” 仅 有 单 层 计算 节 点 
和 7=1,2,…,l。 的 前 馈 网 络 

在 时 刻 n 神经 神经 元 j 对 输入 集 |x,(n)1i= 1,2,…, mj 的 响应 所 产生 的 输出 y(n) 由 下 
式 给 出 (参看 图 8-7a) : 





y(n) = Dw Cn) n(n), 7 = 1,2,.,1 (8.79) 
根据 Hebb 学 习 的 广义 形式 ， 修 改 突 触 权 值 ww (n) RAL FSR (Sanger, 1989b ) : 
Aw,;(n) = al y(n) x(n) - y(n) Sl wi(n) y(n)] ， f 7 le (8.80) 


其 中 Aw; (n) EMA n 对 wi (n) 的 修改 ,1 是 学 习 率 。 对 于 一 层 含 有 ! 个 神经 元 的 式 
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(8.80) 所 示 的 广义 Hebb 算法 (generalized Hebbian algorithm, GHA ) 包 括 上 一 节 式 (8.39) 的 算法 
为 其 特殊 情况 ， 即 j = 1。 
为 对 该 算法 的 行为 进行 分 析 ， 将 式 (8.80) 重 新 写成 


i = 1,2,…,m 


Aw; (n) = ny; (n)L x’, (n) 一 wi(n)y(n)], jel, l (8.81) 
的 形式 ， 其 中 a(n) ARATE x(n) 的 第 i 个 分 量 的 修改 形式 ; CE TIR J 的 函数 ， 表 示 为 
x(n) = x(n) -= S wu (n) y(n) (8.82) 


对 茶 个 指定 的 神经 元 j， 式 (8.81) 表 示 的 算法 与 上 一 节 式 (8.39) 表 示 的 算法 在 数学 形式 上 完 
全 相同 ， 只 是 将 x;(n) 变 成 了 它 的 修改 值 x';(n)。 可 以 进一步 将 公式 (8.80) 重 新 写成 Hebb 
的 学 习 假 设 对 应 的 形式 ， 表 示 成 


Awi(n) = Wy,(n)x,(n) (8.83) 
其 中 x(n) = x — wi(n)y(n) (8.84) 
注意 wy (n +1) = wi(n) + Aw; (nr) (8.85) 
和 wi(n)=z [wi(n+1)] | (8.86) 


其 中 z 是 单位 延迟 操作 符 ， 我 们 可 以 构建 广义 Hebb 算法 的 信号 流 图 ， 如 图 8-7b 所 示 。 从 
图 中 看 出 只 要 其 公式 由 式 (8.85) 描 述 ， 则 算法 适合 于 实现 的 局 部 形式 。 同 时 注意 在 图 8-7b 


的 信号 流 图 中 表示 反馈 的 y(n) 由 式 (8.79) 决 定 ; 它 的 信号 流 图 表示 在 图 8-7a 给 出 。 


-y n) 
x; (n) w iD 


—y(n) 


w, (n) 





Wj 1 1) 





Xp (n) 
a) b) 

图 8-7 广义 Hebb 算法 的 信号 流 图 表示 

a) 式 (8.79) 的 图 b) 式 (8.80) 至 (8.81) 的 图 
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为 了 有 助 于 理解 广义 Hebb 算法 实际 上 如 何 操 作 ， 我 们 首先 利用 和 矩阵 形式 重 写 式 (8.81) 
Aw,(n) = y(n)x (n) - n(n)w(n), 7J=1,2,…,l . (8.87) 


其 中 x(n) = x(n) Twn)yln) (8.88) 


向 量 x (n) 为 输入 向 量 的 修正 形式 。 基 于 式 (8.87) 给 出 的 表示 ， 我 们 得 到 下 面 的 观察 结果 
(Sanger, 1989b) : 

1. 对 于 图 8-6 的 前 馈 网 络 中 的 第 一 个 神经 元 ， 我 们 有 

j=1: x(n) = x(n) 

这 种 情况 下 ,广义 Hebb 算法 相当 于 上 一 节 的 一 个 神经 元 的 式 (8.46)。 由 8.4 节 的 描述 ， 我 
们 已 经 知道 这 个 神经 元 将 发 现 输入 向 量 的 第 一 个 主 分量 。 

2. 对 于 图 8-6 中 的 第 2 个 神经 元 ， 我们 写 出 

7 = 2: x(n) = x(n) - wn)y(n) 

如 果 第 一 个 神经 元 已 经 收敛 于 第 一 个 主 分 量 ， 则 第 二 个 神经 元 看 到 一 个 输入 向 量 x a), M 
其 中 已 经 去 掉 相关 矩阵 R 的 第 一 个 特征 向 量 。 因 此 第 二 个 神经 元 抽取 的 是 x(z) 的 第 一 个 主 
分 量 ， 相 当 于 原来 输入 向 量 x(n) 的 第 二 个 主 分 量 。 

3. 对 于 第 3 个 神经 元 ， 我 们 写 出 

j=3; x(n) = x(n) - w(n)y,(n) - w(n) y(n) 

假设 前 两 个 神经 元 已 经 分 别 收敛 于 第 一 个 和 第 二 个 主 分 量 ， 如 前 面 两 步 的 解释 一 样 。 第 三 个 
神经 元 的 输入 向 量 为 x(n)， 从 其 中 已 经 去 掉 相关 和 矩阵 R 的 前 两 个 特征 向 量 。 因 此 第 三 个 神 
经 元 抽取 的 是 x (n) 的 第 一 个 主 分 量 ， 相 当 于 原来 输入 向 量 x(n) 的 第 三 个 主 分 量 。 

4. 对 于 图 8-6 的 前 馈 网 络 中 剩 下 的 神经 元 ， 继 续 执行 上 述 过 程 。 显 然 根 据 式 (8.81) 的 广 
X Hebb 算法 训练 的 网 络 的 每 个 输出 代表 对 应 于 输入 向 量 相关 甜 阵 的 某 一 特征 向 量 的 响应 ， 
并 且 这 些 输出 按 特征 值 递减 排序 。 

这 个 计算 特征 向 量 的 方法 与 通称 为 Hotelling 的 紧缩 技术 (Hotelling’s deflation technique) #4 
似 (Kreyszig,1988); 它 类 似 于 Gram-Schmidt 正 交 化 过 程 (Strang, 1980)。 

这 里 所 给 的 一 个 神经 元 接 一 个 神经 元 地 描述 仅仅 是 为 了 简化 解释 。 实 际 上 ， 在 广义 
Hebb 算法 中 所 有 的 神经 元 趋 于 同时 收敛 。 


收敛 性 考虑 
& Wn) = |w; (n) RRE 8-6 所 示 前 馈 网 络 的 一 个 Lx m 的 权 值 矩阵 ， 即 
Wn) = [wi(n),W(n), =, w (n)]" (8.89) 
令 广 义 Hebb 算法 的 学 习 率 参数 9 取 时 变形 式 (nn)， 限 制 条 件 为 
limmn)=0 A Dn) = œ (8.90) 
可 以 将 算法 重新 写成 矩阵 形式 
AW(n) = n(n){y(n)x (n) - LTLy(n)y"(n)]W(n)} (8.91) 


其 中 LTL'] 为 下 三 角 算 子 ， 它 把 矩阵 对 角 线 上 方 的 所 有 元 素 置 为 0， 从 而 使 矩阵 成 为 下 三 角 
EE, FESR PU DORA 8.4 节 所 作 的 假设 ， 则 CHA 算法 收敛 性 证 明 的 过 程 与 上 节 关 
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于 最 大 特征 滤波 器 的 收敛 证 明 相似 。 因 此 我 们 可 以 陈述 下 面 的 定理 (Sanger,1989b): 


如 果 权 和 值 矩 阵 W(n) 在 时 间 步 n=0 时 随机 赋值 ， 则 式 (8.91) 所 描述 的 广义 Hebb 算法 以 
概率 1 收敛 于 固定 点 ， 且 W'(n) 趋 于 一 个 算 阵 ， 该 矩阵 的 列 分 别 为 m x1 输入 向 量 的 mxm 
的 相关 抵 阵 及 的 前 1 个 特征 向 量 ， 按 特征 值 的 降序 排列 。 

这 个 定理 的 实际 价值 在 于 ， 当 对 应 特征 值 互 不 相同 时 它 保 证 广义 Hebb 算法 能 够 找到 相 
KEPE 及 的 前 1 个 特征 向 量 。 同 样 重要 的 是 ， 我 们 不 需要 计算 相关 和 矩阵 R，R 的 前 【个 特征 
向 量 可 直接 由 输入 向 量 计算 。 特 别 是 如 果 输 入 空间 的 维 数 m 很 大 ， 而 要 求 与 RR 最 大 的 ! 个 
最 大 特征 值 对 应 的 特征 向 量 的 数目 只 是 m 的 一 小 部 分 ， 则 导致 的 计算 节省 可 能 是 巨大 的 。 

收敛 定理 是 用 时 变 学 习 率 参数 n(n ) 表 示 的 。 实 际 上 ， 学 习 率 参数 只 能 选择 一 个 很 小 的 
固定 常数 1， 这 样 才能 保证 在 ? 阶 的 突 触 权 值 的 均 方 误差 意义 下 收敛 。 

在 Chatterjee et al.(1998) 中 ， 研 究 式 (8.91) 描 述 的 GHA 算法 的 收敛 性 质 。 那 里 给 出 的 分 
HERH., ?增加 将 导致 收敛 速度 加 快 ， 同 时 渐进 均 方 误差 也 会 增 大 ; 这 在 直观 上 也 是 符合 
的 。 除 此 之 外 ， 该 论文 对 计算 的 精确 性 和 学 习 速 度 之 间 的 折 中 作 了 清楚 的 描述 。 


广义 Hebb 算法 的 最 优 性 


假设 在 极限 时 写成 
Aw(n)>0 和 w(n)>q 4n>e 对 于 了 = 1,2,…,1 (8.92) 
并 且 有 
lwj(n) =1 ”对 于 所 有 j (8.93) 
那么 在 图 8-5 所 示 的 前 馈 网 络 中 ， 神 经 元 的 突 触 权 值 向 量 的 极限 值 g ,中 ,…, qi EAR HB 
阵 R 的 前 个 特征 值 对 应 的 归 一 化 特征 向 量 ， 按 特征 值 的 降序 排列 。 在 平衡 时 可 写 为 


Aj, k=j 
qq = |” . 
0, kj 


(8.94) 


FUR A >A > > Ajo 
对 于 神经 元 j 的 输出 ， 我 们 有 极限 值 
limy(n) = x (na)q = x(n) (8.95) 
S (n) 用 表示 一 个 随机 变量 ， 其 实现 记 为 输出 y(n)。 在 平衡 时 随机 变量 Y(n) 和 Y,(n) 
的 互相 关 为 : 


入 
lim ELY,(n) Y,(n)] = ELqXC)X (nz)q] = q Rg; = | 


jp k=j 
0, k Aj 
因此 ， 我 们 可 以 陈述 : 在 平衡 时 式 (8.91) 的 广义 Hebb 算法 充当 输入 数据 的 特征 分 析 器 。 

令 &(n) 表 示 输 入 向 量 x(m) 的 特定 值 ， 对 于 这 个 值 ， 式 (8.92) 的 极限 条 件 对 /= 1-1 


满足 的 。 因 此 ， 从 式 (8.80) 的 矩阵 形式 ， 我 们 发 现在 极限 形式 
f(n) = 2 n)a (8.97) 


这 意味 着 给 定 两 组 值 ， 即 图 8-5 的 前 馈 网 络 中 神经 元 的 突 触 权 值 向 量 的 极限 值 g oa ,…, q, 
和 相应 的 输出 mn Cn), y(n),…, y(n)， 我们 可 以 构造 输入 向 量 x(n) 的 线性 最 小 平方 


(8.96) 
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估 tk (n) ME, MA8- si HAN (8.97) MAR MA -MKE E 2 FERRE 
8.3 节 中 的 讨论 ， 这 种 数据 重建 的 方法 导致 逼近 误差 向 量 和 估计 和 


GHA 小 结 


广义 Hebb 算法 (GHA) 所 涉及 的 计算 很 简单 ， 可 以 小 结 如 
下 : 
1. 在 时 刻 n= 1 时 ,初始 化 网 络 突 触 权 值 w;， 使 其 取 一 个 a 
小 的 随机 数 。 对 学 习 率 参数 ? 赋 给 一 个 小 的 正 数 。 图 8-8 ”如何 计 算 重建 向 
2. MFn=1,7=1,2,--,1Mi=1,2,--,m 计算 量 名 的 信号 流 图 表示 


% 
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m 


y(n) = » wi (n)xi(n) 


Aw; (n) = yl y¥;(n)x,(n) - y(n) S wan) yln)] 


HP, x(n) ke m x1 输入 向 量 x(n) 的 第 i 个 分 量 ，/ 是 期 望 的 主 分 量 个 数 。 

3.n 增加 In = n+1)， 转 到 第 2 步 ， 并 继续 执行 直到 w; 达 到 稳 态 值 。 对 较 大 的 n， 神 
经 元 j 的 突 触 权 值 wi 收敛 于 输入 向 量 x(n) 的 相关 和 矩阵 的 第 j 个 特征 值 对 应 特征 向 量 的 第 i 个 
分 量 。 


8.6 计算 机 实验 : 图 像 编码 


通过 用 广义 Hebb 学 习 算法 解决 图 像 编码 问题 完成 对 该 算法 的 讨论 。 
图 8-9b 表示 用 于 训练 的 一 个 双亲 图 像 ， 该 图 像 强调 边缘 信息 。 它 被 数字 化 为 256 x 256 
的 图 像 ， 分 为 256 个 灰 度 等 级 。 利 用 一 个 具有 8 个 神经 元 的 单 层 线性 前 馈 网 络 对 图 像 编码 ， 
每 个 神经 元 有 64 个 输入 。 利 用 8 x 8 的 非 重 释 图 像 块 训练 网 络 。 试 验 扫描 图 像 2000 次 ， 学 
习 率 1= 107". 
图 8-9b 显示 的 8x 8 的 屏蔽 (mask) 表 示 网 络 学 习 所 得 的 突 触 权 值 。8 个 屏蔽 中 的 每 一 个 
为 与 某 个 特定 的 神经 元 相关 的 一 组 权 值 。 具 体 地 ， 兴 奋 ( 正 ) 的 权 值 用 白色 显示 ， 抑 制 ( 负 ) 的 
权 值 用 黑色 表示 ， 灰 色 表示 权 值 为 0。 在 我 们 的 表示 法 中 ， 屏 项 表示 广义 Hebb 算法 收敛 后 
的 64 x 8 突 触 权 值 矩阵 W7 的 列 。 
使 用 下 面 的 步骤 实现 对 图 像 编码 ; 
。 图 像 的 每 个 8 x 8 块 与 图 8-9b 所 示 的 8 个 屏蔽 的 每 一 个 相 乘 ， 因 此 将 产生 8 个 系数 作 
为 图 像 编 码 ; 图 8-9c 显示 没有 量化 的 基于 8 个 主 分 量 的 图 像 重 建 。 
。 每 个 系数 一 律 被 量化 为 与 该 图 像 的 系数 方差 的 对 数 成 正比 的 比特 数 。 最 大 的 3 个 屏 
项 为 每 个 6 比特 ， 其 次 的 两 个 为 每 个 4 比特 ， 再 其 次 的 两 个 为 每 个 3 比特 ， 最 小 的 
一 个 为 2 比特 。 基 于 上 述 表 示 ， 需 要 34 比特 对 每 8 x 8 的 像素 块 编码 ， 每 个 像素 为 
0.53 比特 的 数据 率 。 
用 量化 系数 重建 图 像 ， 所 有 的 屏蔽 都 用 它们 的 量化 系数 加 权 ， 然 后 释 加 重新 构成 的 每 块 
图 像 。 以 15:1 的 压缩 率 重 建 双亲 图 像 如 图 8-9d 所 示 。 
作为 第 一 个 图 像 的 变化 ， 下 面 我 们 对 图 8- 10a 所 示 的 海洋 景色 图 片 应 用 广义 Hebb 算法 。 
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图 8-9 
a) 用 于 图 像 编码 试验 的 双亲 图 像 b)8 x 8 AERA HE GHA 学 习 的 突 触 权 值 
c) 利 用 8 个 无 量化 主 分 量 所 得 的 双亲 图 像 重建 d) 用 量化 的 15:1 压缩 比 的 双亲 图 像 重 建 


这 幅 图 像 强调 纹理 信息 。 图 8- 10b 显示 用 前 面 描述 的 处 理 方式 由 网 络 学 得 的 突 触 权 值 的 8 x 8 
屏蔽 图 像 ; 注意 到 它们 和 8-9b 的 屏 项 的 区 别 。 图 8- 10c 显示 没有 量化 的 基于 8 个 主 分 量 重 
建 的 海洋 图 像 。 为 了 研究 量化 的 影响 ， 令 前 两 个 屏蔽 的 输出 每 个 为 5 比特 , 第 3 个 为 3 比 
特 ， 剩 下 的 5 个 每 个 为 2 比特 。 这 样 需 要 23 比特 为 每 个 8 x 8 像素 块 编码 ， 每 个 像素 块 的 比 
特 率 为 0.36 比特 每 像素 。 图 8- 10d 显示 量化 后 重建 的 海洋 景色 图 像 ， 使 用 自己 的 以 刚才 描 
述 的 方式 量化 的 屏蔽 。 这 幅 图 像 的 压缩 比 为 22:1。 

为 了 测试 广义 Hebb 算法 的 “ 泛 化 "性 能 ， 最 后 用 图 8-9b 的 屏蔽 分 解 图 8-10a 所 示 的 海洋 
景色 图 像 ， 然 后 用 与 产生 图 8- 10d 所 示 重 建 图 像 一 样 的 量化 过 程 。 这 个 图 像 重 建 结果 如 图 
8- 10e 所 示 ， 压 缩 比 与 8- 10d 一 样 ， 也 为 22:1。 虽 然 在 8-10d 中 的 重建 图 像 与 在 8- 10e 中 的 是 
惊人 地 一 致 ， 但 可 以 看 到 图 8- 10d 比 8- 10e 更 具有 真实 纹理 信息 而 更 少 块 状 现象 。 产 生 这 种 
情况 的 原因 在 于 网 络 的 权 值 。 对 双亲 图 像 和 海洋 景色 图 像 所 完成 的 训练 ， 它 们 的 前 4 个 突 触 
权 值 很 相似 。 然 而 ， 对 双亲 图 像 而 言 ， 后 4 个 权 值 编码 边缘 信息 ， 但 在 海洋 景色 图 像 中 ， 这 
4 个 权 值 编码 纹理 信息 。 因 此 当 用 边缘 型 权 值 对 海洋 图 像 编 码 时 ， 纹 理 数据 在 重建 后 是 粗糙 
的 ， 因 此 产生 了 块 状 现象 。 
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图 8-10 fan 
,海洋 景色 图 像 b)8 x 8 的 屏 项 表示 由 应 用 于 海洋 景色 的 CHA 学 习 到 的 突 触 权 什 


外 利用 8 个 优势 主 分 量 重建 的 海洋 景色 图 像 d) 利 用 b) 中 的 屏 项 以 22:1 压缩 比重 建 的 
海洋 景色 图 像 e) 利 用 图 8-9b 中 的 屏蔽 编码 以 22:1 压缩 比 量化 草 建 的 海洋 景色 图 像 
8.7 ”使 用 侧 向 抑制 的 自 适应 主 分 量 分 析 


前 _ 节 描述 的 广义 Hebb 算法 是 基于 排除 使 用 前 个 连接 的 主 分 量 分 析 。 在 这 一 节 我 们 讨 
论 另 一 个 称 之 为 自 适 应 主 分 量 抽取 (adaptive principal components extraction, APEX) 的 算法 (Kung 


一 一 一 一 
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and Diamantaras, 1990; Diamantaras and Kung, 1996). APEX 算法 使 用 前 馈 连 接 和 反馈 连接 2 。 其 
特点 是 如 果 给 出 前 (7 - 1) 个 主 分 量 ， 它 可 以 用 和 迭代 方式 计算 第 7 个 主 分 量 。 
用 于 导出 APEX 算法 的 网 络 模型 如 图 8-11 所 示 。 
和 以 前 一 样 ， 输 入 向 量 x 为 m SE, APSA xm, 
Xm 表示 。 网 络 中 每 个 神经 元 均 为 线性 单元 。 如 图 8-11 
的 描绘 ， 网 络 中 有 两 种 突 触 连接 方式 : 
。 前 馈 连 接 : 由 输入 节点 到 神经 元 1,2,…,j 间 的 
连接 ，j < m。 我们 特别 感 兴趣 的 是 到 神经 元 j 
的 前 馈 连接 权 值 向 量 ， 这 些 连接 由 前 馈 权 值 向 
量 
Wi = [wa(n), we (n) s+, Wa (a) |" 
表示 。 前 馈 连 接 按照 Hebb 学 习 规则 运行 ; 这 j 
种 连接 是 兴奋 性 的 ， 从 而 起 到 自 增强 作用 。 输出 层 
。 侧 向 连接 : 从 输出 单个 神经 元 1,2,…,j 一 1 到 、 
神经 元 | 间 的 连接 ， 对 网 络 起 反馈 作用 。 这些 my Jn A 
连接 由 反馈 突 触 权 值 向 量 
a(n) = [a(n),an(n), saja (n)] 
表示 。 侧 向 连接 按 反 Hebb 学 习 规 则 (anti-Hebb leaming rule) 运 行 ， 该 规则 对 它们 产生 
抑制 作用 。 
在 图 8-11 中 ,第 j 个 神经 元 的 前 馈 连 接 和 反馈 连接 用 粗 线 表示 仅仅 为 了 强调 神经 元 / 是 
研究 的 主题 。 
神经 元 j 的 输出 y(n) 为 
y(n) = wi (n)x(n) + a (n)yi(n) (8.98) 
其 中 w (n) x(n) AERP AE, al (n)y,..(n) AUER. RAS y,_,(n) h 
神经 元 1,2,…,j - 1 的 输出 定义 : 
yj-i(n) = [y(n), y(n), yaan) (8.99) 
假定 输入 信号 x(z) 取 自 平稳 随机 过 程 ， 其 相关 矩阵 有 R 具 有 不 同 的 特征 值 并 按 递减 顺序 排列 
WF: 





A> a >t > Na > ÀA D> > Àn (8.100) 

进一步 假设 图 8-11 中 网 络 的 神经 元 1,2,…,j -1 已 经 收敛 到 相应 的 稳定 条 件 ， 有 即 
wi(0) = q, k = 1,2,……, -1 (8.101) 
ai(0) =0, k=1,2,,j-1 (8.102) 


其 中 q, 是 与 相关 和 矩阵 R 的 第 个 特征 值 相 联 系 的 特征 向 量 ， 网 络 神经 元 j 从 时 间 步 n=0 时 
开始 计算 。 我 们 可 以 利用 式 (8.98)、(8.99)、(8.101) 和 (8.102) 写 成 
yaln) = [qix(n), ql x(n), ,qx(n)] = Qx(n) (8.103) 
其 中 Q 是 (7 -1) x m 矩阵， 由 相关 和 矩阵 RR 的 (j - 1) 个 最 大 的 特征 值 X ,%,,…,X,_; 相 联系 的 特 
征 向 量 g ,gq ,… q)-, FORK, BD 
Q = [qaga] (8.104) 
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下 面 的 任务 是 用 图 8- 11 中 网 络 的 神经 元 j 计算 输入 向 量 的 相关 和 矩阵 R 的 下 一 个 最 大 特征 值 
a, 和 它 对 应 的 特征 向 量 q 。 
前 馈 突 触 权 值 w (az) 和 反馈 突 触 权 值 a (x) 的 更 新 方程 分 别 定义 为 
w(n +1) = wn)+ny(n)x(n) - y(n)w(n)] (8.105) 
和 aj(n+1) =a,(n) -ny (ny i(n)+ y(n)a(n)] (8.106) 
其 中 了 是 学 习 率 参数 ， 假 设 两 个 更 新 方程 中 的 1 一样。 式 (8.106) 右 端的 y(n)x(n) 项 代表 
Hebb 学 习 ， 而 项 - y,(n)y,_.(n RRR Hebb 学 习 。 璋 下 的 项 y(n)aj(n) 和 -y(n)w(n) 
保证 算法 的 稳定 性 。 基 本 上 ， 式 (8.105) 是 式 (8.40) 所 述 的 0ja 学 习 规 则 的 矢量 形式 ， 而 
(8.106) 是 新 的 ， 说 明 侧 向 连接 的 作用 (Kung and Diamantaras , 1990; Diamantaras and Kung, 1996) . 
可 用 归纳 法 证 明 图 8-11 神经 网 络 的 绝对 稳定 性 如 下 : 
。 首先 ， 我们 证 明 如 果 神 经 元 1,2,…,j - 1 收敛 于 其 稳定 状态 ， 那 么 神经 元 j 将 通过 提 
取 输 入 向 量 x(n) WHERE R 的 第 j 个 特征 值 X 及 其 对 应 的 特征 向 量 qd 而 达到 自 
身 的 稳定 状态 。 
。 其 次 ,认识 到 神经 元 1 没有 反馈 连接 ， 因 此 反馈 权 值 向 量 a 是 0， 我们 可 由 归纳 法 
完成 这 个 证 明 。 因 此 这 个 特殊 的 神经 元 运行 实际 上 与 0ja 神经 元 的 运行 过 程 一 样 ， 
由 8.4 节 知道 在 一 定 条 件 下 这 个 神经 元 绝对 收敛 。 

因此 仅仅 需要 注意 第 一 点 。 

为 了 进一步 处 理 ， 我 们 使 用 8.4 节 所 作 的 基本 假设 ,在 图 8-11 所 示 网 络 中 的 神经 元 j 
的 运行 满足 式 (8.105) 和 (8.106) 描 述 的 条 件 下 ， 我 们 得 到 下 面 的 定理 (Kung and Diamantaras, 
1990; Diamantaras and Kung, 1996): 

车 给 定 的 学 习 率 参数 ?足够 小 ， 使 权 值 向 量 的 调节 进行 缓慢 ， 在 极限 时 前 馈 连 接 的 权 值 
向 量 和 神经 元 /的 平均 输出 功率 (方差 ) 趋 近 于 相关 矩阵 R 的 归 一 化 特征 向 量 q; 和 对 应 的 特 
征 值 ,分别 表示 为 

lmw(n) = q 
和 limo; (n) = 入 
其 中 on) = ELy(N)], HA >_> > 和 >… >A, >0。 换 句 话说， 给 定 特征 向 量 q， 
Q.d- Al8-11 所 示 网 络 的 神经 元 /7 计算 出 下 一 个 神经 元 的 最 大 特征 值 N 和 对 应 的 特征 
向 量 go 
为 了 证 明 这 个 定理 ， 首 先 考虑 式 (8.105)。 利 用 式 (8.98) 和 (8.99)， 并 且 认 识 到 : 
a (n)y;a (n) = y(n)al(n) 
可 以 改写 式 (8.105) 如 下 : 
wnt+l) = wn) + nxCn)x (nw(n) + x(n)x"(n)Q*a(n) - y(n)w(n)] 
(8.107) 
其 中 Q 由 式 (8.104) 定 义 。 在 式 (8.107) 中 项 y(n) 没 有 改变 ， 其 原因 后 面 将 会 明白 。 用 8.4 
节 的 基本 假设 ,对 (8.107) 两 端 应 用 统计 期 望 算 子 可 得 
Wnt+l) = wn) + 9 Rw,(n) + RQ’a(n) - o(n)w(n)] (8.108) 
其 中 OR 是 输入 向 量 x HKEE, o (EMAN j 的 平均 输出 功率 。 令 权 值 向 量 w (n) 
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展开 成 相关 和 矩阵 R 的 正 交 特 征 向 量 集 如 下 : 
w(n) = AGT (8.109) 


其 中 q 是 矩阵 R 的 A; 对 应 的 特征 向 量 ， 9.() 是 展开 式 的 时 变 系数 。 利用 基本 关系 (参看 
式 (8.14)) 

Rq; = 和 qt 
表示 矩阵 乘积 Rw,(n) 如 下 : 


Rw (n) = $0, Rg = Pos Cn) (8.110) 


类 似 地 ， 用 式 (8.104) 表 示 和 矩阵 乘积 RQ7ai (nm ) 为 
RQ ai(z) = Rlq,g,…,q1]a(n) 
a(n) 


ap (n) (8.111) 


j-1 
= [Ng ,hb N11] = Dp Aaa (n) qs 
kel 


a; ;-1(n) 
FA, RFR (8.109). (8.110) (8.111) RARE (8. 108) FF 4E ff, 得 到 (Kung and Diamantaras, 
1990) 


Pon + 1)q: = yh + lA, - §(n) 116, (nq, + 7 Suasa (8.112) 
遵循 上 述 类 似 的 过 程 ， 可 以 将 关于 反馈 权 值 向 量 (n) 的 更 新 方程 (8 106) 变 换 成 下 述 形 
式 (参看 习题 8.7) : 
a(n +1) = — AO, (n)1, + [1 - nM + on)]ia ln) (8.113) 
其 中 1, 是 第 7 个 元 素 为 1 而 其 他 元 素 均 为 0 的 向 量 。 下 标 上 被 限制 在 范围 IE<7- 工 内 。 
按 上 与 j-1 的 关系 需 考 虑 两 种 情况 。 情 况 1 指 1< < - 1， 适用 于 分 析 网 络 “ 已 有 的 ” 
ERK. WRU j<k<m， 适 用 于 分 析 “ 新 的 " 主 模式 ， 而 总 的 数量 为 m， 即 输入 向 量 
x(n) 的 维 数 。 
情况 I lsksj-1 在 这 种 情况 下 ， 从 式 (8.112) 和 (8.113) 分 别 推出 关于 q 的 系数 
6x《n) 的 更 新 方程 以 及 反馈 权 值 向 量 ax (n) 的 更 新 方程 
Qa(n+1) = maa(n) + 11+ nM -ó (n) 16, (0) (8.114) 
和 ay (nt+1)= -m0 Cn) + {1 -nl +;(n) ]} a(n) (8.115) 


图 8-12 给 出 式 (8.114) 和 (8.115) 所 描述 的 信号 流 图 。 
用 和 矩阵 形式 重 写 式 (8.114) 和 (8.115) 如 下 : 


bx (nm + 1) 1+ lA, ~ o(n)] TAR | O(n) 
Lan sD 7 | — Àr 1- ql + O(n)] ban (8.116) 
式 (8.116) 描 述 的 系统 和 矩阵 在 
px = [1 ~ n(n) (8.117) 


时 具有 重 特征 值 。 由 式 (8.117) 可 得 到 下 面 的 重要 结论 ， 
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1. 式 (8.117) 中 系统 矩阵 的 重 特征 值 ox 不 依赖 1+nQy- 97) 
于 相关 和 矩阵 RAJEE, ,k=1,2,…,j — Lo 

2. 对 于 所 有 的 上，ox 只 取决 于 学 习 率 参数 
和 神经 元 j 的 平方 输出 功率 oj 。 只 要 学 习 率 参数 
1 为 足够 小 ， 则 它 为 小 于 1 的 正 数 。 

假如 pi <1， 式 (8.109) 中 的 系数 O,(n) FOR 
ARAMA ay (n) 对 所 有 的 上 以 同样 的 速度 趋向 于 
0， 因 为 网 络 的 主 模 式 具 有 同样 的 特征 值 (Kung 
and Diamantaras, 1990; Diamantaras and Kung, 1996)。 
这 个 结果 基于 这 样 的 性 质 ， 即 特征 向 量 的 正 交 性 
不 依赖 于 特征 值 。 换 名 话说 ， 式 (8.109) 中 wj(n) 
对 相关 甜 阵 R 的 正 交 特征 向 量 集 的 展开 式 与 特 
征 值 N ,> ,入 -的 选择 是 无 关 的 ， 式 (8.109) 对 
式 (8.117) 的 结果 是 基本 的 。 

ERI j<k<cm 在 第 二 种 情况 下 ， 反馈 
权 值 a, (n) 对 网 络 模式 (mode) 无 影响 ， 即 

a,(n) =0 MFisk<m (8.118) 

A, WESTER hj 我 们 有 下 面 很 简单 的 图 8-12 式 (8.114) 和 (8.115) 的 信号 流 图 表示 
等 式 : 





1—n + 020) 


O(n +1) = {14 lr, - (nr) 116, Cn) (8.119) 
这 直接 由 式 (8.112) 和 (8.118) 可 得 。 根 据 情 况 I， 对 k=1,2,…,j 一 1,0;(n) 和 ar(n) 都 收敛 
于 0。 用 随机 变量 Y(n) 表 示 神 经 元 j 的 输出 ， 平 均 输 出 功率 可 以 表示 如 下 : 


a(n) = EL[Y(n)] = SA (n) (8. 120) 
其 中 第 二 个 等 式 使 用 了 下 列 关系 : 
"Ra. - [> l=k 
wet Lo, 其 他 


因此 式 (8.119) 不 可 能 发 散 ， 因 为 无 论 0 (n ) 变 得 多 大 ， 只 要 gC(n) >A MW1ltylra- 
oj(n)] 变 成 小 于 1， 在 这 种 情况 下 ，0i(n) 的 幅 值 将 减 小 。 令 算法 用 初始 值 9,(0) 0， 同 时 
定义 

ram) = E 下 = 了 + 1 ,7 (8.121) 


可 以 用 式 (8.119) 写 为 





1 + mrs 一 oi(n)] 
TEOT IA (8.122) 


rą (n +1) = 


相关 和 矩阵 的 特征 值 按 降 序 排列 ， 


A >A, > TT DAL > > AP > TOD A, 


由 此 推出 
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ea <1 对 于 所 有 n Alk = j++1,…,m (8.123) 
此 外 ， 我 们 注意 从 式 (8.119) 和 (8.120) 可 得 9,(n+1) 有 界 ， 因 此 
ri(n)—0 4 n—> œ it 对 于 =j+1,…,m (8.124) 
同样 地 ， 按 照 式 (8.121) 的 定义 ， 我 们 可 得 
O(n) +0 “n> 对 于 上 = 了 +1 e,m (8.125) 
在 这 个 条 件 下 ， 式 (8.120) 简 化 为 
on) = NG(n) (8.126) 
所 以 式 (8.119) 对 =j EH 
Oln +1) = |1 + m,[1 - 6;(n)]}6;(n) (8.127) 
从 上 式 可 立即 推出 
O(n) >1 当 n->% 时 (8.128) 


这 个 极限 条 件 和 式 (8.125) 的 极限 条 件 有 两 个 方面 的 含义 : 
1. 从 式 (8.126) 我 们 有 


ón) >A, W n-> o 时 (8.129) 
2. 从 式 (8.109) 我 们 有 
w(n)>q 4n>o 时 (8.130) 


换 句 话说 ， 当 迭代 数目 n 趋 于 无 穷 大 时 图 8-11 的 神经 网 络 模 型 抽出 输入 向 量 x(n) HERE 
E R 的 第 7 个 特征 值 和 对 应 的 特征 向 量 。 这 时 自然 假定 网 络 的 神经 元 1,2,…,/ -1 都 已 经 收 
AFIKERE R 的 对 应 特征 值 和 特征 向 量 。 

这 里 描述 的 APEX 算法 的 前 提 为 ， 在 神经 元 j 开始 作用 前 ， 神 经 元 1,2,…,j - 1 都 已 经 
收敛 。 这 是 为 了 简化 对 算法 运行 的 解释 。 实 际 上 ，APEX 算法 中 的 神经 元 是 同时 收敛 的 外。 
学 习 率 

在 式 (8.105) 和 (8.106) 中 描述 的 APEX 算法 中 ， 更 新 前 馈 权 值 向 量 w, (=”) 和 反馈 权 值 向 
量 a(n) 的 学 习 率 参数 是 相同 的 。 通 过 置 重 特征 值 os 为 0， 式 (8.117) 可 被 用 来 为 每 个 神经 
元 j 定义 学 习 率 "的 最 佳 值 。 在 这 个 情况 下 ， 有 

Maln) = Zw (8.131) 
其 中 s(n) 是 神经 元 j 的 平均 输出 功率 。 但是， 更 实际 的 建议 是 置 (Kung and Diamantaras, 
1990; Diamantaras and Kung, 1996) 
y= + (8.132) 
AA ya >a, 且 当 mo 时 o(n)> 和 ,因此 对 学 习 率 参数 1 产生 过 低 的 值 。 注 意 特征 值 W -， 
由 神经 元 j - 1 计算 得 到 ， 因 此 对 神经 元 j 的 前 馈 和 反馈 权 值 的 更 新 都 是 可 用 的 。 
APEX 算法 小 结 


1. 在 n=1 时， 对 前 馈 权 值 向 量 w 和 反馈 权 值 向 量 a 赋 于 小 的 随机 数 作为 初 值 ， 其 中 
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j= 1,2,…, mo 设 定 学 习 率 参数 1 为 小 的 正 数 。 
2. 置 j=1， 对 n=1,2,… 计 算 
y(n) = wi(n)x(n) 
w n+l1) = w(n) +a y,(n)x(n) - ¥i(n)w,(n)] 
其 中 x(n) 为 输入 向 量 。 对 于 很 大 的 n， 有 wi(n) 一 qi ，q 为 xna) 的 相关 和 矩阵 的 最 大 特征 值 
A, 对 应 的 特征 向 量 。 
3. 置 j=2， 对 n =1,2,… 计 算 
Yan) = lya) yn (nds. Cn) 17 
y(n) = w (n)x(n) +a (n)y,.(n) 
wn +1) = w(n) + y,(n)x(n) - y(n)w(n)] 
a(n +1) = a(n) -Wyn)y(n) + y(n)a(n)] 
4. 对 于 增加 1， 返回 第 3 步 ， 并 继续 直到 j = m， 其 中 m 是 期 望 的 主 分 量 的 数量 。( 注 意 
/=1 对 最 大 特征 值 相关 的 特征 向 量 ， 在 第 2 步 受 到 处 理 ) 对 于 很 大 的 n, RITE wj(n)->q,， 
a (n)>0, KP q 是 x(n) 的 相关 矩阵 的 第 j 个 特征 值 对 应 的 特征 向 量 。 


8.8 两 类 PCA 算法 


除了 8.5 节 讨 论 的 广义 Hebb 算法 (CHA) 和 8.7 节 讨 论 的 APEX 算法 外 ， 在 文献 5 中 还 报 
导 了 几 种 其 他 的 主 分量 分 析 算 法 。 神 经 网 络 中 使 用 的 各 种 主 分 量 分 析 (PCA) 可 分 为 两 类 : E 
估计 (reestimation) 算 法 和 去 相关 (decorrelating) 算 法 。 

按照 这 个 分 类 ，GHA 是 重 估 计算 法 ， 因 为 式 (8.87) 和 (8.88) 可 重 写 为 等 价 的 形式 





wn+l1)= wn)+n(n)[x(n) - &(n)] (8.133) 
其 中 重 估计 算 子 & (ELH 
tOn) = Dwi(n)y(n) (8.134) 


在 重 估 计算 法 中 神经 网 络 只 有 前 馈 连 接 ， 按 Hebb 方式 修改 它 的 强度 ( 权 值 )。 通 过 在 学 习 过 
程 涉及 数据 集 之 前 先 从 输入 中 减 掉 前 几 个 主 分 量 的 估计 值 ， 强 迫 网 络 的 后 继 输出 学 习 不 同 主 
分 量 。 

相反 ，APEX 算法 是 去 相关 算法 。 在 这 种 算法 中 网 络 具 有 前 馈 和 反馈 连接 ， 前 馈 连 接 的 
强度 遵守 Hebb 规则 ， 而 反馈 连接 的 强度 遵守 反 Hebb 规则 。 网 络 的 后 继 输 出 通过 去 相关 作用 
来 强迫 网 络 响应 不 同 的 主 分 量 。 


主子 空间 
在 仪 需要 主子 空间 ( 即 主 分 量 对 应 的 空间 ) 的 情况 下 ， 我 们 用 一 种 对 称 模型 奉 代 GHA 算 
法 中 的 重 估计 算 子 名 (m): 


&(n) = D2)w(n)y(n) 对 于 所 有 1 (8.135) 


在 式 (8.133) 和 (8.135) 定 义 的 对 称 模型 中 ， 网 络 收敛 于 一 组 可 生成 主子 空间 的 输出 ， 而 不 是 
主 分 量 本 身 。 收 敛 时 权 值 向 量 彼此 正 交 ， 如 在 GHA 算法 中 一 样 。 这 里 描述 的 主子 空间 可 被 








429 




















430 





[431] 





th 


312 FSB 





认为 是 由 式 (8.46) 定 义 的 经 典 Oja 规则 的 一 种 推广 。 
8.9 计算 的 集中 式 方法 和 自 适 应 方法 


讨论 主 分 量 分 析 时 不 考虑 问题 的 计算 方面 是 不 完整 的 。 在 本 节 将 讨论 两 个 主 分 量 计算 的 
基本 方法 : 集中 式 方法 和 自 适 应 方法 。 在 8.3 节 描 述 的 特征 分 解 和 相关 的 奇异 值 分 解 方法 属 
于 集中 式 类 。 另 一 方面 ,在 8.5 节 和 8.7 节 讨论 的 CHA 算法 和 APEX 算法 属于 自 适应 类 。 

在 理论 上 ， 如 8.3 节 的 描述 特征 分 解 方法 是 基于 输入 随机 向 量 X(n) KEE R 的 总 
体 平均 。 实 际 上 , 我 们 使 用 及 的 估计 值 。 令 xz) 表示 随机 向 量 XX(n) 在 均匀 间隔 的 离散 
时 刻 的 一 组 N 次 实现 。 给 定 这 样 一 组 观察 , 我 们 可 以 用 样本 均值 作为 相关 和 矩阵 的 估计 : 

RCN) -$ xC) Cn) (8.136) 


只 要 用 X(n) 表 示 的 输入 环境 向 量 为 各 态 历 经 的 ， 当 样本 大 小 N 趋 于 无 穷 大 时 ， 样 本 均值 
良 (N) 趋 于 R。 在 这 个 基础 上 ， 可 以 对 样本 均值 腿 ( W) 使 用 特征 分 解 过 程 ， 从 而 在 式 (8.22) 用 
R(N) 替 代 及， 由 此 计算 出 它 的 特征 值 和 对 应 的 特征 向 量 。 
然而 ， 从 数值 的 角度 看 ， 更 好 的 方法 是 直接 利用 数据 矩阵 进行 奇异 值 分 解 (singular value 
decomposition, SVD). %{—ZH WES (H ix(n)!}*.,, XPERIA 
A = [x(1),x(2), =, x(N)] (8.137) 
除了 比例 因子 IA 外 ， 容 易 看 出 相关 矩阵 R 的 估计 R(N) 与 矩阵 乘积 AA7 完全 相同 。 按 照 
第 5 章 讨论 的 奇异 值 分 解 定 理 ， 数 据 和 矩阵 A(n) 可 以 分 解 如 下 (Golub and Van Loan, 1996) : 


A = UEV” (8.138) 
其 中 可 和 V 是 正 交 和 矩阵 ， 这 意味 着 
U' =U’ (8.139) 
和 v€ =y" (8.140) 
至 于 矩阵 互 ， 具 有 下 面 的 结构 形式 : 
on 0 : 
o 
X- n, 0 (8.141) 
0 Ok | 
en eee > 


HP kam, m 是 观察 向 量 x(n) 的 维 数 。 实 数 6 ,o,,… ,os 称 为 数据 矩阵 A 的 奇异 值 。 相 应 
H, EXER 如 的 列 称 为 左 奇 异 向 量 ， 而 正 交 和 矩阵 VV 的 列 称 为 右 奇异 向 量 。 数 据 矩 阵 A 的 
奇异 值 分 解 与 相关 和 矩 阵 的 估计 奶 (N) 的 特征 值 分 解 有 下 面 的 关系 : 

。 除了 比例 因子 1N2 外 ， 数 据 矩 阵 A 的 特征 值 是 估计 良 (N) 的 特征 值 的 平方 根 。 

。 A 的 左 奇异 向 量 是 估计 良 (N) 的 特征 向 量 。 

现在 ， 我 们 可 以 看 出 奇异 值 分 解 比特 征 值 分 解 具有 的 数值 优点 。 对 于 给 定 计算 精度 ， 奇 
异 值 分 解 过 程 需要 的 数值 精度 为 特征 值 分 解 的 一 半 。 此 外 ， 在 计算 机 上 用 于 实现 奇异 值 分 解 
的 过 程 已 有 许多 算法 和 高 精度 的 定制 程序 可 资 利用 (Golub and Van Loan, 1996; Haykin 1996)。 
然而 ， 在 实际 中 ， 存 储 需求 限制 这 些 程 序 使 用 的 样本 量 不 可 能 太 大 。 

下 面 转 到 另 一 类 自 适应 方法 ， 这 些 方法 可 以 对 任意 大 的 样本 大 小 N 工作 。 对 所 有 的 实 
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际 问题 ， 对 N 均 没 有 限制 。 基 于 Hebb 规则 的 神经 网 络 是 自 适应 方法 的 例子 ， 它 操作 的 思 
来 源 于 神经 生物 学 。 这 类 方法 对 存储 的 要 求 相对 适中 ， AE AE RE EA 
存储 。 自 适应 算法 的 另 一 个 诱 人 的 特征 是 在 非 平稳 环境 中 ， 与 集中 式 方法 相 比 ， 它 具有 以 最 
优 解 和 较 低 代价 跟踪 缓慢 变化 的 固有 能 力 。 然 而 ， 随 机 逼近 型 自 适 应 算法 的 主要 缺点 是 收 伍 
速度 相当 慢 ， 这 一 点 和 经 典 的 集中 式 技术 比较 处 于 不 利 地 位 ; 对 大 型 的 平稳 问题 尤其 如 此 ， 
即使 是 在 并 行 神经 网 络 硬件 上 实现 自 适应 方法 (Kotilainen , 1993) 。 


8.10 核 主 分 量 分 析 


到 目前 为 止 本 章 讨论 的 PCA 形式 涉及 到 在 输入 (数据 ) 空 间 上 的 计算 。 现 在 我 们 考虑 另 
一 种 形式 的 PCA， 计 算 在 特征 空间 上 进行 ， 它 和 输入 空间 是 非 线性 的 关系 。 我 们 打算 使 用 的 
特征 空间 是 依据 Mercer 定理 的 内 积 核定 义 的 ; 内 积 核 的 概念 在 第 6 章 的 支持 向 量 机 中 讨论 。 
基于 核 的 主 分 量 分 析 思 想 归 功 于 Schölkopf et al. (1998), 

由 于 输入 空间 和 特征 空间 的 非 线性 关系 ， 核 PCA 是 非 线性 的 。 然 而 ， 并 不 像 其 他 形式 
的 非 线 性 PCA’), 4% PCA 的 实现 依赖 于 线性 代数 。 因 此 我 们 可 以 将 核 PCA 看 作 是 一 般 PCA 
的 自然 扩展 。 

令 向 量 Cx, ) 表 示 输 入 向 量 x 在 非 线 性 映射 : g: RoR 定义 特征 空间 中 导出 的 像 ， 
其 中 mo 是 输入 空间 的 维 数 ，m, 是 特征 空间 的 维 数 。 给 定 一 组 样本 |x, 1*,， 我 们 有 一 组 相 
应 的 特征 向 量 i9(x:)|,。 因 此 我 们 可 以 在 特征 空间 定义 由 R 表示 的 m x m, 相关 矩阵 如 
F: 


R= + Deag) (8.142) 
如 同 普通 的 PCA, 我 们 首先 要 做 的 就 是 确保 特征 向 量 | g(x; ) | 六 1 的 集合 具有 零 均值 ; 
1 Yea) =0 


在 特征 空间 上 满足 这 个 条 件 比 在 输入 空间 上 更 加 困难 ; 在 习题 8.10 中 我 们 描述 一 个 过 程 来 
满足 这 个 要 求 。 假 设 特征 向 量 已 经 聚集 于 中 心 ， 则 可 以 在 目前 情况 下 改变 式 (8.14) ， 写 成 


Rq = Aq (8.143) 
其 中 入 为 R 的 特征 值 ，q 为 对 应 的 特征 向 量 。 我 们 注意 对 入 z0 满足 式 (8， ee 
量 ， 落 在 特征 向 量 ;j9(x ) | 六 ,集合 生成 的 空间 中 。 因 此 存在 一 组 相应 的 系数 ia | MEN 
可 写成 
q = set) (8.144) 
由 此 将 式 (8.142) 和 (8.144) 代 人 式 (8. 143) 得 到 
> Xo @(x;) K(x; ,x;) = NA Ye (x) (8.145) 
其 中 Kx ARE, 通过 特征 向 量 由 下 式 定义 : 
K(x;,X) = @7(x; )@(x;) (8.146) 


我 们 需要 进一步 计算 式 (8.145) 使 得 完全 用 内 积 核 来 表示 此 关系 。 在 式 (8.145) 等 号 的 两 边 左 
乘 以 转 置 向 量 p(x) 
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> Dy aK (x, x; ) K(x; ,x;) = NA Deke. x) = 12 (8.147) 


其 中 K(x,,x;), K(x, x ) 由 式 (8.146) 定 义 。 
现在 引入 下 面 两 个 矩阵 定义 : 

。 Nx NEREK, PARE, EM y WRAAE K(x; ,x;) 

。N x1 向 量 a， 第 j 个 元 素 为 参数 a 

因此 ， 可 以 将 式 (8.14 和 7) 写成 紧 凌 的 矩阵 形式 

Ka = NAKa (8.148) 

其 中 和 矩阵 的 平方 KR 表示 K 自身 相 乘 。 因 为 式 (8.148) 两 端 均 有 K, PEA BUR 
解 同样 可 用 为 更 简单 的 特征 值 问题 表示 : 


Ka = Naa (8.149) 
令 N sheet. Shy RNAS K 的 特征 值 ， 即 
A= NN， j=1,2,,N (8.150) 
其 中 是 相关 和 矩阵 及 的 第 7 个 特征 值 。 从 而 式 (8.149) 变 成 标准 形式 
Ka = do (8.151) 


其 中 系数 向 量 a 起 到 核 矩 阵 K 的 特征 值 、 的 对 应 特征 向 量 的 作用 。 系 数 向 量 & 是 归 一 化 的 ， 
因为 要 求 将 相关 算 阵 下 的 特征 向 量 q 归 一 人 即 

aq. = 1 Xt k = 1,2,- (8.152) 
此 处 假设 特征 值 为 降序 排列 ，》， 为 核 失 降下 的 特征 值 的 最 小 非 年 信 。 利用 式 (8.144) 和 
(8.151) 我 们 可 以 得 到 式 (8.152) 等 价 的 归 一 化 条 件 : 


a, a, = yh = 1,2,--,p (8.153) 
为 了 抽出 主 分 量 ， 需 要 计算 特征 向 量 q 在 特征 空间 上 的 投影 如 下 : 
q: p(x) = Da (x,)@(x) = So AC x), k = 1,2, (8.154) 


其 中 向 量 x 是 “测试 "点 ， oy, EAE K k 个 特征 值 对 应 的 特征 向 量 a, 和 个 系数 。 式 
(8.154) 的 投影 定义 在 m 维特 征 空 间 中 的 非 线 性 主 分 量 (nonlinear principal component) 。 

图 8- 13 说 明 核 PCA 的 基本 思想 ， 其 中 特征 空间 经 过 变换 g(x) 和 输入 空间 是 非 线 性 相关 
的 。 图 中 的 a Al b 部 分 分 别称 为 输入 空间 和 特征 空间 。 图 8- 13b 中 的 轮廓 线 表 示 在 主 特征 向 
量 上 的 投影 为 常数 的 线 ， 特 征 向 量 用 虚线 第 头 表 示 。 在 此 图 中 ， 假 设 变换 p(x) 用 下 面 的 方 
式 选择 ; 在 特征 空间 中 数据 点 诱导 的 像 聚 集 在 特征 向 量 沿线 。 图 8-13a 显示 输入 空间 上 对 应 
特征 空间 的 线性 等 值 线 的 非 线 性 等 值 线 。 注 意 我 们 有 意 没 有 在 输入 空间 上 画 特 征 向 量 的 原 
像 ， 因 为 它 甚 至 可 能 不 存在 (Schilkopf et al. ,1998)。 

按照 Mercer 定理 定义 的 内 积 核 ， 我 们 在 m 维特 征 空间 上 执行 普通 的 PCA， 维 数 m 是 
设计 参数 。8.3 THAR PCA 的 所 有 性 质 对 核 PCA 均 适用 。 尤 其 ， 核 PCA 在 特征 空间 
上 是 线性 的 ， 但 在 输入 空间 上 是 非 线性 的 。 因 此 ， 所 有 可 用 普通 PCA 进行 特征 提取 和 数据 
压缩 的 领域 ， 进 行 非 线性 扩展 PCA 也 有 意义 。 

在 第 6 章 我 们 提出 了 三 个 构造 内 积 核 的 方法 ， 它 们 是 基于 利用 多 项 式 、 径 向 基 函 数 和 双 
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a) b) 


图 8-13 核 PCA 图 例 
a) 二 维 输 和 空间， 显示 一 组 数据 点 b) 二 维特 征 空间 ， 显 示 数 据点 在 一 个 主 特征 向 量 附近 聚集 
的 诱导 像 。 在 b) 中 均匀 排列 的 虚线 表示 在 特征 向 量 上 投影 为 常数 的 等 值 线 ; 
它们 在 输入 空间 中 的 对 应 等 值 线 是 非 线性 的 
HRR: 参见 表 6- 1{。 对 给 定 的 任务 ， 怎 么 样 选择 最 适合 的 核 ( 即 恰 当 的 特征 空间 ) 是 一 个 有 
待 解决 的 问题 (Schilkopf,1997) 。 


核 主 分 量 分 析 小 结 


1. 给 定 训练 样本 fx: 1,， 计 算 N x NS K = |K(x; ,x;)|， 其 中 
K(x;,x)) = 97(x,)@(x,) 
2. 解释 特征 值 问 题 : 





Ka = ho 
其 中 、 为 KORE, a 为 对 应 的 特征 向 量 。 [ass] 
3. 归 一 化 所 计算 的 特征 值 ， 这 要 求 
OO, = +, k = 1,2,°",p 


其 中 为 是 矩阵 K 最 小 的 非 零 特征 值 ， 假 设 特征 值 是 按 降序 排列 的 。 
4. 为 了 抽取 测试 点 x WESER, HARE 


Q; = a, p(x) = Dy oe, KC; +X), k= 1,2, p 
其 中 a ;是 特征 向 量 a, 的 第 j 个 元 素 。 
例 8.3 为 了 对 核 PCA 的 运行 有 一 个 直观 的 了 解 ， 图 8- 14 显示 Schölkopf et al. (1998) 描 
述 的 一 个 简单 的 实验 结果 。 二 维 数据 由 分 量 *, 和 x, 组 成 ， 在 这 个 试验 中 用 下 述 方 法 产生 : 
xi 的 值 在 区 间 [ - 1,1) 0%, a 的 值 与 x, 的 非 线 性 相关 ， 由 


2 
X= XI +0 
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确定 ， 其 中 v 是 加 性 Gauss 白 品 声 ， 均 值 为 0， 方差 为 0.04。 
图 8- 14 所 示 的 PCA 的 结果 是 用 核 多 项 式 
K(x,x;) = (x’x,)%, d = 1,2,3,4 
得 到 的 ， 其 中 d= 1 对 应 线性 PCA, d=2,3,4 对 应 于 核 PCA。 线 性 PCA 如 图 8- 14 左面 所 示 ， 
因为 输入 空间 为 二 维 ， 仅 产生 两 个 特征 向 量 。 相 反 ， 核 PCA 允许 抽出 高 阶 分 量 ， 结 果 如 图 
8-14 中 的 2、3、4 列 所 示 ， 分 别 与 4 = 2,3,4 对 应 。 图 中 每 部 分 显示 的 等 值 线 (在 线性 PCA 情 
形 时 除去 零 特征 值 ) 表 示 常 数 主 值 ( 即 在 与 特征 值 相关 联 的 特征 向 量 上 的 投影 为 常数 )。 


特征 值 =0.709 特征 值 =0.621 特征 值 =0.570 特征 值 =0.552 
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图 8-14 说 明 核 PCA 的 二 维 示例 。 从 左 到 右 ， 核 多 项 式 的 次 数 4 = 1,2,3,4 。 从 上 到 
下 ， 显 示 特 征 空间 中 的 前 面 三 个 特征 向 量 。 第 一 列 对 应 普通 的 PCA， 后 三 列 对 应 多 
项 式 次 数 d = 2,3,4 的 核 PCA( 复 制 经 Dr. Klaus-Robert Miller 允许 。) 
根据 图 8- 14 显示 的 结果 可 得 到 如 下 结论 : 
。 如 所 期 望 的 ， 线 性 PCA 不 能 对 非 线 性 输入 数据 提供 足够 的 描述 。 
。 在 所 有 情况 下 ， 第 一 个 主 分 量 沿 着 构成 输入 数据 的 抛物 线 单调 变化 。 
。 在 核 PCA 中 ， 对 不 同 的 多 项 式 次 数 4， 第 2 和 第 3 个 主 分 量 展示 一 定 的 相似 性 。 
。 在 多 项 式 次 数 4 =2 情况 下 ， 核 PCA 的 第 3 个 主 分 量 显 现 出 找到 加 性 高 斯 噪声 v 的 
方差 。 消 除 这 个 主 分 量 的 影响 ， 在 效果 上 实际 是 执行 某 种 形式 的 噪声 消除 。 
| 


8.11 小 结 和 讨论 


在 这 一 章 中， 我 们 提供 处 理 主 分 量 分 析 理论 和 用 神经 网 络 对 其 实现 的 材料 。 现 在 我 们 回 
顾 这 些 材料 并 反问 : 主 分 量 分 析 有 多 大 用 途 ? 这 个 问题 的 答案 当然 依赖 于 有 兴趣 的 应 用 。 

如 果 主 要 目标 是 保存 尽 可 能 多 的 输入 向 量 中 的 信息 ， 并 得 到 较 好 的 数据 压缩 ， 则 主 分 量 
分 析 提 供 一 个 有 用 的 自 组 织 学 习 过 程 。 这 里 从 8.3 节 的 材料 ， 我 们 注意 到 利用 基于 输入 数据 
的 “前 1 个 主 分 量 " 的 子 空 间 分 解 方 法 所 提供 的 线性 映射 ， 它 在 允许 初始 输入 信号 的 重建 按照 
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均 方 误差 的 意义 下 是 最 优化 的 。 此 外 ， 基 于 前 ! 个 主 分 量 的 子 空间 表示 比 其 他 任意 子 空间 表 
示 更 好 ， 因 为 输入 数据 的 主 分 量 按 特征 值 或 方差 递减 顺序 排列 。 因 此 ， 通 过 对 输入 数据 的 第 
一 个 主 分 量 进行 最 精确 的 编码 ， 对 剩 下 的 1 - 1 个 主 分 量 编码 精度 逐步 降低 ， 我 们 可 以 在 数 
据 压 缩 中 最 优化 主 分 量 分 析 的 使 用 。 

相关 的 问题 是 数据 集 的 表示 由 几 个 聚 类 构成 。 因 为 聚 类 单独 地 可 见 ， 它 们 之 间 的 间隔 比 
聚 类 的 内 部 散布 要 大 。 如 果 碰 巧 数据 集 中 的 聚 类 较 少 ， 用 主 分 量 分 析 建立 的 主要 主轴 将 使 聚 
类 的 投影 具有 好 的 分 离 ， 因 此 提供 用 于 特征 提取 的 有 效 基 础 。 

在 这 后 面 的 讨论 中 我 们 提 及 主 分 量 分 析 器 的 有 效应 用 一 一 作为 监督 神经 网 络 (例如 反 向 
传播 训练 的 多 层 感知 器 ) 的 预 处 理 器 。 这 里 的 动机 是 通过 对 输入 数据 去 相关 来 加 速 学 习 过 程 
的 收敛 。 一 个 诸如 反 向 传播 算法 的 监督 学 习 过 程 依赖 于 最 速 下 降 。 因 为 多 层 感 知 器 的 突 触 权 
值 对 误差 信和 号 相互 作用 的 效果 ， 即 使 使 用 诸如 对 单个 权 值 使 用 加 入 动量 项 和 自 适 应 学 习 率 之 
类 的 简单 局 部 加 速 过 程 ， 这 种 形式 的 学 习 过 程 收敛 仍然 特别 慢 。 然 而 ， 如 果 多 层 感 知 的 输入 
由 不 相关 的 分 量 组 成 ,从 第 4 章 给 出 的 讨论 中 我 们 注意 代价 函数 %(n ) 关 于 网 络 自由 参数 的 
Hessian 矩阵 将 比 在 其 他 情况 下 更 接近 于 对 和 角 化 。 因 为 有 这 种 适当 形式 的 对 角 化 ， 则 独立 地 
沿 着 每 个 权 值 轴 适 当地 提高 学 习 率 ， 用 简单 的 局 部 加 速 过 程 就 会 使 收敛 过 程 有 相当 大 的 加 速 
(Bercker, 1991), 

由 于 这 一 章 基于 Hebb 的 算法 是 由 源 于 神经 生物 学 的 思想 所 激发 ， 因 此 以 对 生物 感知 系 
统 中 主 分 量 分 析 的 作用 的 评论 作为 结束 是 合适 的 。Linsker( 1990a) 怀 疑 主 分 量 分 析 作 为 一 个 
原则 的 “充分 性 ”， 该 原则 用 于 决定 通过 单个 神经 元 分 析 输 入 “场景 "(scene) 的 一 个 总 体 所 产 
生 的 响应 性 质 。 特 别 地 ， 关 于 从 神经 元 的 响应 实现 对 输入 信和 号 的 精确 重建 与 主 分 量 分 析 最 优 
性 的 相关 性 值得 怀疑 。 一 般 地 ， 人 脑 所 做 工作 很 显然 比 通过 感觉 单元 的 接收 信号 然后 再 简单 
重 现 输 入 场景 复杂 得 多 。 相 反 ， 一 些 潜 在 的 “有 意义 的 线索 ”或 特征 被 抽出 来 使 得 对 输入 得 到 
高 层 的 解释 。 因 此 我 们 可 能 对 这 个 讨论 开始 时 提出 的 问题 加 深 了 疑问 ， 并 且 会 问 ， 主 分 量 分 
析 过 程 对 感知 过 程 到 底 有 什么 用 处 ? 

对 于 在 分 层 聚 类 算法 中 由 0ja(1982) 和 Sanger(1989a) 建 立 用 于 主 分 量 分 析 的 算法 ( 即 8.4 
节 和 8.5 节 讨 论 的 基于 Hebb 规则 的 算法 ) Ambros-Ingerson et al.(1990) 指 出 了 它们 的 重要 意 
义 。 他 们 提出 假设 认为 分 层 聚 类 可 以 表现 为 基于 长 期 潜能 (lone-temn potentiation, LTP) 的 记忆 
的 基本 性 质 (至 少 部 分 性 质 ) ， 这 个 性 质 能 够 被 用 作 识别 环境 的 线索 ， 所 谓 长 期 潜能 就 像 在 皮 
层 球状 网 络 发 现 的 一 类 突 触 修改 和 在 人 脑 其 他 区 域 里 类 似 设计 的 回路 。 自 组 织 主 分 量 分 析 对 
在 大 脑 皮层 中 学 习 线索 的 分 层 聚 类 具有 重要 意义 ， 这 一 点 并 不 是 因为 它 的 最 优 重建 性 质 ， 而 
是 由 于 其 挑选 的 聚 类 投影 具有 好 的 分 离间 隔 这 一 内 在 性 质 。 

主 分 量 分 析 在 感觉 处 理 中 的 另 一 个 有 趣 的 作用 表现 为 阴 影 成 像 (shape-from-shading) 问 题 
的 一 个 方法 中 ， 这 是 由 Atick et al.(1996) 提 出 的 。 此 问题 可 陈述 如 下 : 脑 怎 么 能 够 从 投影 到 
二 维 图 像 的 阴影 模式 感觉 三 维 形 状 ? Atick 等 人 提供 一 个 阴影 成 像 问题 的 分 层 解 ， 包 含 两 个 
概念 : 

1. 通过 进化 或 先 验 经 验 ， 脑 已 经 发 现 这 样 的 物体 ， 根 据 它们 的 形状 就 能 分 类 成 较 低 维 
的 物体 类 。 这 个 概念 实际 建立 在 这 样 一 个 事实 的 基础 上 ， 即 脑 用 来 抽取 三 维 解释 的 线索 是 被 
透彻 了 解 的 。 

2. 按照 第 一 个 概念 ， 从 阴影 模式 中 抽取 形状 归结 为 低 维 空间 中 的 参数 估计 这 个 更 简单 
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的 问题 。 


例如 ， 人 类 头 型 的 整个 结构 必然 相同 ， 在 某 种 意义 上 所 有 的 人 都 有 凸 出 的 鼻子 ， 下 陷 的 


眼窝 ， 平 坦 的 前 额 和 脸颊 区 域 。 这 个 不 变性 表明 对 任意 给 定 的 面部 ， 在 柱 面 ( 极 ) 坐 标 上 表示 
为 r(9,1)， 可 以 用 两 部 分 和 来 表示 : 


r(0,1) = ro(0,1) + p(0,1) 


其 中 m(6, 7) 表示 对 某 类 特定 人 (如 成 年 男性 或 成 年 女性 ) 的 平均 头 (mean-head)，p(0,1) 表 示 
捕获 特定 人 特征 的 扰动 ,通常 po(6, 1) 与 r。(9, 1) 相 比 很 小 。Atick 等 用 主 分 量 分 析 表 示 
2(6,1) ,因此 波动 由 一 组 特征 函数 表示 ( 即 特征 向 量 的 二 维 对 应 物 )。Atick et al.(1996) 的 结果 表 
明 对 某 个 人 用 这 个 人 给 定 的 一 个 二 维 图 像 ， 利 用 两 阶段 分 层 方法 具有 恢复 3 维 曲面 的 能 力 。 


注释 和 参考 文献 


[1] 


[2] 


[3] 


[4] 
[5] 


[6] 


在 多 元 分 析 中 ， 主 分 量 分 析 (PCA) 或 许 是 最 早 的 和 最 有 名 的 方法 (Jollife, 1986; 
Preisendorfer, 1988) 。 最 时 由 Pearson(1901) 引 入 ， 在 生物 学 背景 下 他 用 它 来 重建 线性 回 
妇 分 析 的 新 形式 。 后 来 Hotelling(1933) 在 做 心理 测验 时 将 它 发 展 。 看 来 Karhunen( 1947) 
年 在 概率 论 框 架 下 再 次 独立 地 讨论 了 它 ; 随后 被 Loéve(1963) 推 广 。 

Ljung(1977) 和 Kushner and Clark(1978) 研 究 随 机 通 近 算法 的 动态 行为 所 采取 的 措施 归结 
为 研究 对 应 差分 方程 的 动力 学 的 问题 。 然 而 这 两 种 方法 根本 不 同 。Ljung 的 方法 是 利用 
Lyapunov PX, Mí Kushner 和 Clark 采用 的 方法 涉及 线性 插值 过 程 和 利用 Arzela-Ascoli 定 
理 (Dunford and Schwartz, 1966)。Kushner 和 Clark 的 方法 接着 在 Diamantaras and Kung 
(1996) 中 被 用 于 研究 对 基于 Hebb 的 最 大 特征 滤波 器 的 收敛 性 。 其 中 得 到 的 结论 与 用 
Ljung 方法 得 到 的 相同 。 

Feldiak(1989) 扩 展 用 于 主 分 量 分 析 的 神经 网 络 结构 ， 引 入 反 Hebb 规则 的 反馈 连接 。 这 
个 修改 的 动机 源 于 Barlow and Fsldiak(1989) 关 于 视觉 皮层 的 自 适应 和 去 相关 的 早期 工 
作 ; 他 们 提出 如 果 神 经 元 按照 反 Hebb 规则 相互 作用 ， 则 神经 元 输出 定义 一 个 坐标 系 
统 ， 在 这 个 坐标 系统 中 ， 即 使 输入 具有 很 强 的 相关 性 ， 输 出 也 不 具有 相关 性 。 

Rubner and Tavan(1989) 和 Rubner and Schulten(1990) 也 提出 在 输出 神经 元 中 使 用 侧 
向 抑制 。 然 而 ,不 像 Foldiak 提出 的 模型 ，Rubner 等 人 考虑 的 侧 向 网 络 是 不 对 称 的 连 
接 。 相 反 ， 侧 向 网 络 是 分 层 的 ， 其 中 (比如 说 ) 神 经 元 i 抑制 除了 1,2,… ,i -1 外 的 所 有 
神经 元 ,其 中 i=1,2,…。 

Kung and Diamantaras (1990) 研 究 的 APEX 模型 与 Rubner 等 人 的 模型 具有 相同 的 网 络 
拓扑 ， 但 是 Kung and Diamantaras (1990) 的 APEX 模型 在 调整 前 馈 和 侧 向 连接 的 权 值 时 均 
使 用 0ja 的 单个 神经 元 学 习 规 则 (在 8.4 节 描 述 )。 

Chen and Liu(1992) 给 出 APEX 算法 收敛 性 的 严格 证 明 ， 所 有 的 神经 元 趋 于 同时 收敛 。 
讨论 主 分 量 分 析 的 几 个 神经 模型 和 它们 的 比较 ， 请 参看 Diamantaras and Kung(1996) 的 
书 。 

非 线 性 PCA 方法 ， 除 了 核 PCA 外 ， 可 以 被 归 人 三 类 网 络 (Diamantaras and Kung, 1996) : 
。 Hebb 网 络 ， 用 非 线 性 神经 元 代替 基于 Hebb 规则 的 PCA 算法 的 线性 神经 元 得 到 。 

。 复制 器 网 络 或 自动 编码 器 ， 建 立 在 多 层 感 知 器 基础 上 : 复制 器 网 络 在 第 4 章 讨论 。 
。 主 曲线 ， 基 于 捕获 数据 结构 的 曲线 或 曲面 的 迭代 估计 (Hastie and Stuetzle,1989)。 在 
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Ritter et al.(1992) 和 Cherkassky and Mulier(1995) 中 ， 指 出 Kohonen 的 自 组 织 上 映射 可 被 
看 作 发 现 主 曲线 离散 逼近 的 计算 过 程 ， 自 组 织 映射 在 下 一 章 讨论 。 


习题 
基于 Hebb 的 最 大 特征 滤波 器 
8.1 对 于 例 8.2 中 考虑 的 匹配 滤波 器 ， 特 征 值 X 和 对 应 的 特征 向 量 为 q 定义 为 
和 = ldo’, q =S 
证 明 这 些 参数 满足 基本 的 关系 
Rq, = àq 
其 中 R 为 输入 向 量 X WAAR 


8.2 考虑 最 大 特征 滤波 器 ， 其 中 权 值 w(n) 按 照 式 (8.46) 演 化 。 证 明 随 着 n 趋向 于 无 穷 
大 ， 滤 波 器 的 输出 方差 趋向 于 Amo HP Xu。 为 输入 向 量 相关 和 矩阵 的 最 大 特征 值 。 

8.3 次 分 量 分 析 (minor components analysis, MCA ) 与 主 分 量 分 析 是 相反 的 。 在 MCA 中 ， 
我 们 寻找 投影 方差 最 小 的 方向 。 这 样 得 到 的 方向 对 应 于 输入 向 量 X(z) 的 相关 和 矩阵 R 的 最 小 
特征 值 的 特征 向 量 。 

在 本 题 中 ， 我 们 探讨 怎样 修改 8.4 节 的 单个 神经 元 发 现 及 的 次 分 量 。 特 别 地 ， 我 们 可 以 
对 式 (8.40) 的 学 习 规则 改变 符号 ， 得 到 (Xu et al. ,1992) 

w;(n +1) = w(n) = nyln)lx (n) - y(n) w;(n)] 
证 明 如 果 相 关 和 矩阵 R 的 最 小 特征 值 àn BRA 1, W 
limw(n) = ng 
其 中 q, 25 An 对 应 的 特征 向 量 。 
基于 Hebb 的 主 分 量 分 析 

8.4 构造 一 个 信号 流 图 表示 向 量 值 等 式 (8.87) 和 (8.88)。 

8.5 在 8.4 节 描述 的 用 于 收敛 性 分 析 的 常 微分 方程 方法 不 能 直接 用 于 广义 Hebb 学 习 算 
法 (GHA)。 然 而 ,通过 将 式 (8.91) 的 突 触 权 值 矩阵 W(n) 用 W(n) 的 列 向 量 的 组 合 来 表示 ， 
则 我 们 可 以 用 通常 的 方式 解释 更 新 函数 hO, )， 然 后 继续 应 用 渐进 稳定 性 定理 。 因 此 ， 根 
据 此 处 已 有 的 说 明 , 证明 CHA 算法 的 收敛 性 定理 。 

8.6 在 这 个 习题 中 ， 我 们 可 以 探讨 利用 广义 Hebb 算法 来 研究 随机 输入 向 量 产生 的 二 维 
接收 域 (Sanger,1990 )。 随 机 输入 包含 独立 于 高 斯 噪声 共有 零 均值 和 单位 方差 的 二 维 域 ， 它 
与 高 斯 屏蔽 (滤波 器 ) 作 卷 积 ， 然 后 乘 以 一 个 高 斯 窗 。 高 斯 屏蔽 有 两 个 像素 的 标准 偏差 ， 高 斯 
BA 8 个 像素 的 标准 偏差 。 在 位 置 (r,s) 的 结果 随机 输入 x(r,s) 因 而 可 以 写成 

x(r,s) = m(r,s)lg(r,s) * w(r,s)] 
其 中 w(r,s) 是 独立 和 同 分 布 的 高 斯 噪声 的 域 ，g(r,s) 是 高 斯 屏蔽 ，m(r,s*) 是 窗 函 数 。 
er,s) 和 w(r,s) 的 循环 卷 积 由 


g(r, s)*w(r,s) = > Sete. q)w(r—p, s- q) 


定义 ， 其 中 g(r,s) 和 w(r， ,) 均 假设 为 周期 的 
用 随机 输入 x(7,s) 的 2000 个 样本 训练 基于 CHA 算法 的 单 层 前 馈 网 络 。 网 络 有 4096 个 
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输入 ， 排 列 成 64 x 64 像素 格 网 ， 具 有 16 个 输出 。 训 练 网 络 的 结果 突 触 权 值 用 64 x 64 阵列 的 
数 表示 。 执 行 上 述 计算 并 显示 突 触 权 值 作为 二 维 屏 项 的 16 个 阵列 。 评 价 你 的 结果 。 

8.7 式 (8.113) 定 义 计算 前 馈 权 值 向 量 a,(n) 的 修正 公式 (8.106) 的 变换 形式 。 变 换 基于 
由 式 (8.109) 给 出 的 网 络 的 m 主 模 式 关 于 突 触 权 值 向 量 w,(n) 的 定义 。 导 出 式 (8.113)。 

8.8 考虑 式 (8.116) 的 系统 矩阵 ， 它 由 图 8-12 的 信和 号 流 图 表示 ， 对 应 于 1<k<j-1。 

(a) 写 出 这 个 2x2 算 阵 的 特征 方程 的 公式 。 

(b) 证 明和 矩阵 有 一 个 二 重 特征 值 。 

(c) 证 明 结 论 ， 网 络 的 所 有 主 模 式 有 相同 的 特征 值 。 

8.9 GHA 仅 用 前 馈 连 接 ， 而 APEX 算法 使 用 前 馈 连 接 和 侧 向 连接 。 尽 管 存在 这 些 差别 ， 
在 理论 上 APEX 和 GHA 的 长 期 收敛 行为 是 相同 的 。 证 明 这 个 结论 的 合理 性 。 
核 主 分 量 分 析 

8.10 $ KERBER K 的 第 j NER Ky; 中心 化 后 所 对 应 的 部 分 。 证 明 (Scholkopf, 
1997) 


K; = K- + Dp (x, (x) = 六 Do (axel) + x 2) De" (x, Cx, ) 


建议 用 紧凑 的 矩阵 形式 表示 这 个 关系 。 


8.11 证 明 核 矩阵 K 的 特征 向 量 a 的 归 一 化 与 满足 式 (8.153) 的 条 件 等 价 。 
8.12 小 结核 主 分 量 分 析 的 性 质 。 





9.1 简介 


在 这 一 章 我 们 通过 考虑 一 种 称 为 自 组 织 映 射 的 特殊 人 工 神经 网 络 继续 研究 自 组 织 系统 。 
这 类 网 络 基 于 竞争 学 习 (competitive leaming); 网 络 的 输出 神经 元 之 间 互 相 竞 争 以 求 被 激活 或 
点 火 ， 结 果 在 每 一 时 刻 只 有 一 个 输出 神经 元 ， 或 者 每 组 只 有 一 个 输出 神经 元 被 激活 或 点 火 。 
赢得 竞争 的 一 个 输出 神经 元 被 称 作 胜 者 全 得 (winner-takes-all) 神 经 元 或 简称 获胜 (winning) 神 经 
元 。 在 输出 神经 元 中 导出 胜 者 全 得 的 竞争 方法 是 在 它们 之 间 使 用 侧 抑制 连接 ( 即 负 反 馈 路 
径 ); 这 个 思想 是 由 Rosenblatt(1958) 最 先 提 出 的 。 

在 自 组 织 映 射 里 ， 神 经 元 被 放置 在 网 格 节点 上 ， 这 个 网 格 通常 是 一 维 或 是 两 维 的 。 更 高 
维 映射 也 可 以 但 是 不 常见 。 在 竞争 学 习 过 程 中 ， 神 经 元 变化 依 不 同 输入 模式 (刺激 ) 或 者 输 
和 人 模式 的 类 别 而 选择 性 地 调整 。 这 样 调整 后 神经 元 ( 即 获 胜 神经 元 ) 的 位 置 彼此 之 间 成 为 有 序 
的 ， 使 得 对 于 不 同 的 输入 特征 ， 在 网 格 上 建立 起 有 意义 的 坐标 系 (Kohonen,1990a)。 因 此 自 组 
织 映 射 由 输入 模式 的 拓扑 映射 (topographic map) 结构 所 表征 ， 其 中 网 格 神经 元 的 空间 位 置 表 
示 输 入 模式 包含 的 内 在 统计 特征 ,“ 自 组 织 映射 ”因此 得 名 。 

作为 一 个 神经 模型 ， 自 组 织 映射 在 两 个 自 适应 层次 之 间 提 供 一 个 桥梁 : 

。 在 单个 神经 元 的 微观 层次 形成 自 适 应 规则 。 

， 在 神经 元 层次 的 微观 层 上 形成 特征 选择 在 实验 上 更 好 的 和 具体 可 实现 的 模式 。 
因为 自 组 织 映射 本 质 上 是 非 线 性 的 ， 因 此 它 被 视 为 主 分 量 分 析 的 非 线性 推广 (Ritter, 1995)。 

发 展 自 组 织 映射 作为 神经 模型 是 由 人 脑 的 一 个 突出 特征 所 激发 ， 人 脑 在 许多 地 方 以 这 样 
一 种 方式 组 织 起 来 ， 使 得 不 同 的 感觉 输入 由 拓扑 有 序 的 计算 映射 (topologically ordered 
computational map) 来 表示 。 特 别 ， 感 觉 输入 如 触觉 (Kaas et al. ,1983)、 视 觉 (Hubel and Wiesel, 
1962,1977) 和 听觉 (Suga,1985) 用 拓扑 有 序 的 方式 映射 到 人 脑 皮 层 的 不 同 区 域 。 这 样 在 神经 系 
统 的 信息 处 理 基本 结构 中 ,计算 映射 组 成 一 个 基本 构件 。 一 个 计算 上 映射 由 神经 元 阵列 定义 ， 
这 些 神经 元 表示 上 略微 不 同调 制 的 处 理 器 和 滤波 器 ， 它 们 并 行 处 理 携带 信息 的 传 感 信号 。 所 
以 ， 神 经 元 将 输入 信和 号 转变 为 空间 位 置 编码 的 概率 分 布 ， 分 布 通过 映射 中 最 大 相关 激活 的 位 
置 表示 参数 的 计算 值 (Knudsen et al. ,1987)。 用 这 种 方式 导出 的 信息 属于 这 样 一 种 形式 ， 它 
可 以 用 于 使 用 相对 简单 的 连接 模式 的 高 阶 处 理 器 。 


本 章 的 组 织 


这 一 章 所 讨论 的 关于 计算 映射 的 资料 是 按 下 面 方式 组 织 的 。 在 9.2 节 ， 我 们 描述 两 个 特 
征 映射 模型 ， 它 们 用 自己 特有 的 方式 解释 或 抓 住 人 脑 中 计算 映射 的 本 质 特征 。 两 个 模型 使 用 
的 输入 形式 彼此 不 同 。 

本 章 其 余 各 节 详 细 地 讨论 这 些 模型 中 的 一 个 ,通常 称 为 “ 自 组 织 映射 "由 Kohonen 
(1982) 提 出 。 在 9.3 节 里 我 们 使 用 神经 生物 学 的 考虑 方法 建立 Kohonen 模型 的 一 个 数学 公式 。 
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该 模型 的 小 结 在 9.4 节 给 出 。 模 型 的 重要 特性 在 9.5 节 描述 ， 随 后 在 9.6 节 讨论 它 的 计算 机 
仿真 。 特 征 映射 的 性 能 最 终 可 能 通过 一 个 称 为 学 习 向 量 量化 的 监督 技术 进行 微调 ， 这 个 技术 
在 9.7 节 讨论 。9.8 节 描述 一 个 关于 自 适应 模式 分 类 的 计算 机 实验 ， 它 结合 应 用 自 组 织 映射 
和 学 习 向 量 量化 。 在 9.9 节 描述 基于 自 组 织 映射 的 分 层 向 量 量化 ， 它 用 于 数据 压缩 。9.10 节 
描述 另 一 个 自 组 织 映射 的 应 用 ， 用 于 建立 上 下 文 映射 ， 它 从 文本 中 音素 类 别 的 无 监督 分 类 、 
遥感 和 数据 探索 中 找到 应 用 。 本 章 在 9.12 节 给 出 一 些 最 终 评价 作为 结束 。 


9.2 两 个 基本 的 特征 映射 模型 


任何 人 只 要 检查 人 脑 就 会 禁不住 对 人 脑 被 大 脑 皮质 所 占据 的 范围 留 下 深 深 印象 。 人 脑 几 
乎 完全 被 大 脑 皮 质 所 包围 ， 它 诞 蔽 了 其 他 部 分 。 由 于 惊人 的 复杂 性 ， 大 脑 皮 质 也 许 超 过 了 字 
宙 中 任何 已 知 的 结构 (Hubel and Wiesel, 1977) 。 同 样 给 我 们 深刻 印象 的 是 将 不 同 的 感觉 输入 
(运动 、 身 体 的 体 觉 、 视 觉 、 听 觉 等 ) 以 一 种 有 序 的 方式 映射 到 相应 的 大 脑 皮质 区 域 的 方法 ; 
为 了 说 明 这 一 点 ， 看 图 2-4 的 大 脑 皮 质 的 细胞 结构 图 。 计 算 映 射 的 使 用 提供 下 面 的 特性 
(Knudsen et al. ,1987): 

。 在 表示 的 每 一 阶段 ， 每 一 个 新 来 的 信息 片段 保持 在 它 合适 的 位 置 中 。 

。 处 理 高 度 相关 的 信息 片段 的 神经 元 被 紧密 地 联系 到 一 起 ， 通 过 短 的 突 触 连接 使 得 

们 能 够 交互 。 

我 们 的 兴趣 在 于 建立 人 工 拓 扑 映 射 ， 
它 以 神经 生物 学 激励 的 方式 通过 自 组 织 来 
学 习 。 在 这 段 文 字 中 ， 从 人 脑 的 计算 映射 
的 非常 简短 的 讨论 所 体现 的 重要 一 点 是 拓 
tp eR at RBM, EAL BRR oF 
(Kohonen 1990a) : 

在 拓扑 映射 中 输出 神经 元 的 空间 位 置 
对 应 于 特殊 的 定义 域 或 从 输入 空间 抽取 数 
据 的 特征 。 

这 个 原则 提供 了 这 里 描述 的 两 个 基本 不 同 
的 特征 映射 模型 中 的 神经 学 生物 基础 。 

图 9-1 展现 两 个 模型 的 布局 。 在 两 种 获胜 神经 元 
情况 下 输出 神经 元 被 安排 在 二 维 的 网 格 后 突 触 神经 元 
中 。 这 种 拓扑 确保 每 个 神经 元 都 有 一 组 邻 ERR 
域 。 模 型 间 的 区 别 在 于 输入 模式 的 指定 方 


m} 





È, BEER 
图 9-1a 的 模型 由 Wilshaw and von der 

Malsburg( 1976) 在 生物 学 基础 上 首先 提出 从 

AY, FLA RE COE ee HE oP) MAAR R 

膜 到 视觉 皮质 的 视觉 映射 的 问题 。 具 体 图 9-1 两 个 自 组 织 特征 映射 


地 ， 有 两 个 不 同 的 二 维 网 格 神经 元 连接 在 a) Willshaw-von der Malsburg 模型 ”b) Kohonen 模型 





BLL AT 323 





一 起 ， 一 个 投射 到 另 一 个 。 一 个 网 格 代表 前 突 触 (输入 ) 神 经 元 ， 另 一 个 网 格 代表 后 突 触 ( 输 
出 ) 神 经 元 。 后 突 触 网 格 使 用 短程 兴奋 机 制 (short-range excitatory mechanism) 和 长 程 抑 制 机 制 
(long-range inhibitory mechanism)。 这 两 种 机 制 本 质 上 都 是 局 部 的 且 对 自 组 织 特别 重要 。 这 两 
个 网 格 由 Hebb 型 的 可 调 突 触 相 互 连 接 。 因 此 严格 地 说 ， 后 突 触 神经 元 并 不 是 胜 者 全 得 ; 相 
反 使 用 立 值 确保 在 任 一 时 刻 仅 有 一 些 后 突 触 神经 元 点 火 。 更 进一步 ,为 了 防止 可 能 导致 网 络 
不 稳定 性 的 突 触 权 值 的 稳定 建立 ， 每 个 后 罕 触 神经 元 的 总 权 值 有 一 个 上 界 2 。 因 此 对 每 个 神 
经 元 一 些 突 触 权 值 上 升 伴随 着 另外 的 神经 元 下 降 。Willshaw-von der Malsburg 模型 的 基本 思想 
是 对 前 突 触 神经 元 的 几何 邻近 编码 为 它们 电位 活动 的 相关 形式 ， 并 且 在 后 突 触 网 格 中 利用 这 
些 相关 使 得 相 邻 的 前 突 触 神经 元 连接 到 相 邻 的 后 突 触 神经 元 。 从 而 由 自 组 织 产生 拓扑 有 序 的 
映射 。 但 需 注意 Willshaw-von der Malsburg 模型 限制 为 输入 和 输出 维 数 相 同 的 映射 。 

图 9-1b 的 第 二 个 模型 ， 由 Kohonen(1982) 引 入 ， 并 不 在 说 明神 经 生物 学 的 细节 。 模 型 抓 
住人 脑 中 计算 映射 的 本 质 特征 而 且 保 留 计 算 的 易 行 性 中 。Kohonen 模型 看 起 来 比 Willshaw-von 
der Malsburg 模型 更 为 一 般 ， 前 者 能 进行 数据 压缩 ( 即 输入 维 数 的 缩减 )。 

现实 中 ，Kohonen 模型 属于 向 量 - 编码 (vector-coding) 算 法 的 类 型 。 模 型 提供 一 个 拓扑 映 
射 ， 它 最 优 地 设置 固定 数目 的 向 量 ( 即 编码 字 ) 到 高 维 输入 空间 ， 因 此 有 利于 数据 压缩 。 
Kohonen 模型 因此 可 由 两 种 方式 导出 。 我 们 可 以 用 由 神经 生物 学 考虑 所 激发 的 自 组 织 的 基本 
思想 导出 模型 ， 这 是 传统 的 方法 (Kohonen, 1982, 1990a, 1997a)。 另外 ， 可 以 用 向 量 量化 的 方 
法 ， 使 用 包含 编码 器 和 解码 器 的 模型 ， 这 由 通信 理论 的 考虑 所 激发 。 在 这 一 章 我 们 考虑 这 两 
种 方法 。 - 

在 文献 中 Kohonen 模型 比 Willshaw-von der Malsburg 模型 受到 更 多 的 注意 。 它 拥有 在 本 章 
后 面 讨论 的 一 些 性 质 ， 这 使 得 它 对 人 脑 中 的 皮质 映射 的 理解 和 建 模 有 特殊 的 兴趣 。 本 章 剩 余 
部 分 介绍 自 组 织 映射 的 导出 、 它 基本 性 质 和 细节 。 


9.3 KAARI 


自 组 织 映射 (self-organizing map,SOM) 的 主要 目的 是 将 任意 维 数 的 输入 信号 模式 转变 为 一 
维 或 二 维 的 离散 映射 ,并且 以 拓扑 有 序 的 方式 自 适 应 实现 这 个 变换 。 图 9.2 给 出 常用 作 离 散 
映射 的 二 维 神经 元 网 格 的 简要 图 表 。 网 格 中 每 个 神经 元 和 输入 层 的 源 节 点 全 连接 。 这 个 网 络 
代表 具有 神经 元 按 行 和 列 构成 的 单一 计算 层 的 前 馈 结 构 。 一 维 网 格 是 图 9-2 描绘 的 构 形 的 一 
个 特例 ， 在 这 种 特殊 情形 计算 层 仅 由 单一 的 行 或 列 神经 元 构成 。 

呈现 给 网 络 的 每 个 输入 模式 ， 通 常 包含 面 对 平 静 背 景 的 一 个 局 部 化 活动 区 域 或 点"。 这 
个 点 的 位 置 和 性 质 通常 随 输入 模式 的 实现 不 同 而 不 同 。 因 此 输入 网 络 中 所 有 神经 元 应 经 历 输 
和 模式 的 足够 次 数 的 不 同 实现 ， 确 保有 机 会 完成 恰当 的 自 组 织 过 程 。 

负责 形成 自 组 织 映射 的 算法 ， 第 一 步 进行 网 络 突 触 权 值 的 初始 化 。 这 个 工作 可 以 从 随机 
数 产 生 嚣 中 挑选 较 小 的 值 赋予 它们 ; 这 样 做 ， 在 特征 映射 上 没有 加 载 任何 先 验 的 序 。 一 旦 网 
络 被 恰当 初始 化 ， 在 自 组 织 映射 的 形成 中 有 三 个 主要 过 程 ， 小 结 如 下 : 

1. 竞争 。 对 每 个 输入 模式 ， 网 络 中 的 神经 元 计算 它们 各 自 的 判别 函数 的 值 。 这 个 判别 
函数 对 神经 元 之 间 的 竞争 提供 基础 。 具 有 判别 函数 最 大 值 的 特定 神经 元 成 为 竞争 的 胜利 者 。 

2. 合作 。 获 胜 神经 元 决定 兴奋 神经 元 的 拓扑 邻 域 的 空间 位 置 ， 从 而 提供 这 样 的 相 邻 神 
经 元 合作 的 基础 。 
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图 9-2 神经 元 的 二 维 网 格 


3. 突 触 调节 。 最 后 的 这 个 机 制 使 兴奋 神经 元 通过 对 它们 突 触 权 值 的 适当 调节 以 增加 它 
们 关于 该 输入 模式 的 判别 函数 值 。 所 做 的 调节 使 获胜 神经 元 对 以 后 相似 输入 模式 的 响应 增强 
了 。 

竞争 和 合作 的 过 程 符合 第 8 章 描述 的 四 个 自 组 织 原 则 中 的 两 个 。 对 于 自 增强 原则 ， 它 来 
源 于 自 适 应 过 程 的 Hebb 学 习 的 修正 形式 。 如 第 8 章 的 解释 ， 输 入 数据 中 的 元 余 (虽然 在 描述 
SOM 算法 时 没有 明显 提 及 ) 对 学 习 是 需要 的 ， 因 为 它 提供 知识 。 现 在 给 出 鄞 争 、 合 作 和 突 触 
调节 过 程 的 详细 描述 。 


竞争 过 程 
令 m 表示 输入 (数据 ) 空 间 的 维 数 。 从 输入 空间 中 随机 选择 输入 模式 (向 量 ) 记 为 


x = [astrs Xn (9.1) 
网 络 中 每 个 神经 元 的 突 触 权 值 向 量 和 输入 空间 的 维 数 相同 。 神 经 元 j 的 突 触 权 值 向 量 记 为 
W, = [ww wd, 了 = 12,0761 (9.2) 
其 中 1 是 网 络 中 神经 元 的 总 数 。 为 了 找到 输入 向 量 x 与 突 触 权 值 向 量 w, 的 最 好 匹配 ， 对 j= 
1,2,…, 7 比较 内 积 wx 并 选择 最 大 者 。 这 里 假定 所 有 的 神经 元 有 相同 的 靖 值 ; 闭 值 是 偏 置 
取 负 。 这 样 ， 通 过 选择 具有 最 大 内 积 wx 的 神经 元 ， 我 们 实际 上 决定 了 兴奋 神经 元 的 拓扑 
邻 域 中 心 的 位 置 。 
从 第 1 章 我 们 回想 基于 内 积 wx 最 大 化 的 最 优 匹配 准则 ， 在 数学 上 等 价 于 向量 X 和 Wi 
的 Euclid 距离 的 最 小 化 。 如 果 用 标号 i(x) 标 识 最 优 匹配 输入 向 量 x 的 神经 元 ， 我 们 可 以 通过 
PINE Bee i(x): 
i(x) = arg min Ix-w ll, j = 1,2,.,1 (9.3) 
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这 概括 了 神经 元 中 竞争 过 程 的 本 质 。 根 据 式 (9.3)，i(x) 是 注意 的 目标 ， 因 为 我 们 要 识别 神 
经 元 i。 满 足 这 个 条 件 的 特定 神经 元 i 被 称 为 输入 向 量 x 的 神经 元 或 获胜 神经 元 。 式 (9.3) 导 
出 这 样 的 观察 : 

激活 模式 的 连续 输入 空间 通过 网 络 中 神经 元 之 间 的 竞争 过 程 映 射 到 神经 元 的 离散 输出 空 
间 。 

根据 应 用 的 不 同 ， 网 络 的 响应 可 能 是 获胜 神经 元 的 标号 ( 即 它 在 网 格 中 的 位 置 ) 或 者 是 在 
Euclid 距离 意义 下 距 输 入 向 量 最 近 的 突 触 权 值 向 量 。 


合作 过 程 


获胜 神经 元 位 于 合作 神经 元 的 拓扑 邻 域 的 中 心 。 关 键 问题 是 : 我 们 怎样 定义 一 个 在 神 
经 生物 学 上 正确 的 拓扑 邻 域 ? 为 了 回答 这 个 问题 ， 记 住 对 于 一 组 兴奋 神经 元 的 侧 向 相互 
作用 有 神经 生物 学 的 证 据 。 具 体 地 ， 一 个 点 火 的 神经 元 倾向 于 激活 它 紧 接 的 邻 域内 的 神 
经 元 而 不 是 和 它 隔 得 远 的 神经 元 ， 这 在 直观 上 是 满足 的 。 这 个 观察 引导 我 们 对 获胜 神经 
元 的 拓扑 邻 域 按 侧 向 距离 光滑 地 缩减 加 (Lo et al. ,1991,1993; Ritter et al. ,1992)。 具 体 地 ， 
设 ;表示 以 获胜 神经 元 i 为 中 心 的 拓扑 邻 域 。 设 di,; 表 示 在 获胜 神经 元 i 和 兴奋 神经 元 7/ 
的 侧 向 距离 。 然 后 我 们 可 以 假定 拓扑 邻 域 ,是 侧 向 距离 d; ;的 单 峰 函 数 使 得 它 满足 两 个 
不 同 的 要 求 : 

。 HIBER A, KF d =0 定 义 的 最 大 点 是 对 称 的 ; 换 名 话说， 在 距离 d ,为 零 的 获胜 

神经 元 i 处 达到 最 大 值 。 
。 拓扑 邻 域 疡 ;的 幅度 值 随 侧 向 距离 d; ;的 增加 而 单调 递减 ， 当 d; ,一 w 时 趋 于 零 ; 对 
收敛 来 说 这 是 一 个 必要 条 件 。 
满足 这 些 要 求 的 一 个 ,的 典型 选择 为 高 斯 函数 "% 
hy, iw = exp| 一 das) (9.4) 

它 是 平移 不 变 的 ( 即 不 依赖 于 获胜 神经 元 的 位 置 )。 图 9-3 所 示 参 数 o 是 拓扑 邻 域 的 有 效 宽 
度 ”; 它 度量 靠近 获胜 神经 元 的 兴奋 神经 元 在 学 习 过 程 中 参与 的 程度 。 就 量化 来 说 ， 式 (9.4) 
所 示 的 高 斯 拓扑 邻 域 比 和 矩形 形式 的 拓扑 邻 域 在 生物 上 更 合适 。 它 的 使 用 使 SOM 算法 的 收敛 
速度 比 和 矩形 拓扑 邻 域 更 快 (Lo et al. ,1991， 
1993; Erwin et al. ,1992a ) 。 

对 于 邻 域 函数 神经 元 之 间 的 合作 ， 必 
然 要 求 拓扑 邻 域 函数 ,依赖 获胜 神经 元 i 
和 兴奋 神经 元 7 在 输出 空间 的 侧 向 距离 d; 
而 不 是 依赖 于 原始 输入 空间 的 某 种 距离 度 
量 。 这 正 是 在 式 (9.4) 中 我 们 所 表达 的 意 
义 。 就 一 维 网 格 来 说 ，di, ;是 整数 且 等 于 17 
-il。 男 一 方面 ， 在 两 维 网 格 形 的 情况 它 
定义 为 0 “ 
di = lr -r l? (9.5) 图 9-3 Gauss 邻 域 函 数 
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其 中 离散 向 量 r 定义 兴奋 神经 元 j 的 位 置 ， 而 r; 定义 获胜 神经 元 i 的 离散 位 置 ， 两 者 都 是 在 
离散 输出 空间 中 度量 的 。 

SOM 算法 的 另 一 个 独 有 特征 是 拓扑 邻 域 的 大 小 随时 间 收 缩 。 这 个 要 求 通过 使 拓扑 邻 域 
函数 h; AGERE o 随时 间 而 下 降 来 满足 。 对 于 c 依赖 于 离散 时 间 n 的 流行 选择 是 由 


o(n) = mexp( - 2) ， n =0,1,2,…， (9.6) 


描述 的 指数 衰减 (Ritter et al., 1992; Obermayer et al. , 1991 ) ， 其 中 o 是 SOM 算法 中 o 的 初 值 ， 
tl 是 时 间 常 数 。 因 此 ， 拓 扑 邻 域 假定 具有 时 变形 式 ， 表 示 如 下 
hw (n) = exp( - ats) n = 0,1,2,-, (9.7) 


其 中 o(n) 由 式 (9.6) 定 义 。 于 是 随 着 n( 即 迭代 次 数 ) 的 增加 宽度 c(m) 以 指数 下 降 ， 拓 扑 邻 域 
以 相应 的 方式 缩减 。 这 样 我 们 将 hy, ay (10) BATE AB RB SK 
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男 一 种 关于 邻 域 函 数 hiw (n) 在 获胜 神经 元 i(x) 周 围 变 动 的 有 用 观点 如 下 ( Luttrell， 
1989a )。 宽 的 名,;o(n) 的 目标 是 使 网 格 中 大 量 兴奋 神经 元 的 权 值 更 新 方向 相关 。 随 着 hi iw) 
(n) 宽 度 减少 ， 更 新 方向 相关 的 神经 元 数量 也 在 减少 。 当 自 组 织 映射 的 训练 在 计算 机 图 形 屏 
幕 显示 时 ， 这 个 现象 尤其 明显 。 以 相关 形式 在 获胜 神经 元 周围 移动 大 量 自由 度 是 相当 耗费 计 
算 机 资源 的 ， 就 像 标准 SOM 算法 一 样 。 相 反 ， 使 用 重 正规 化 (renormalized) SOM 的 训练 形式 
会 更 好 ， 这 样 我 们 工作 在 较 小 数量 的 正规 化 自由 度 上 。 通 过 使 用 恒定 宽度 的 邻 域 函数 h; iœ 
(nz) ， 但 逐渐 增加 神经 元 的 数量 ， 这 个 操作 很 容易 以 离散 形式 完成 。 新 的 神经 元 被 插 到 已 有 
的 神经 元 之 站 ， 而 SOM 算法 的 平滑 性 保证 新 的 神经 元 以 很 好 的 方式 参与 突 触 自 适应 
(Luttrell,1989a) 。 重 正规 化 SOM 算法 的 概述 在 习题 9.13 给 出 。 


自 适 应 过 程 


现在 我 们 来 讨论 特征 映射 自 组 织 形成 过 程 的 最 后 一 个 过 程 ， 即 突 触 自 适应 过 程 。 为 了 使 
网 络 成 为 自 组 织 的 ， 要 求 神经 元 j 的 突 触 权 值 向 量 w, 随 输入 向 量 x 改变 。 问 题 是 怎样 作 改 
变 。 在 Hebb 学 习 假 设 中 ， 突 触 权 值 随 着 前 突 触 和 后 突 触 的 激活 同时 发 生 而 增加 。 此 方法 非 
常 适 合 联想 学 习 。 然 而 对 于 这 里 考虑 的 无 监督 学 习 ， 以 Hebb 假设 的 基本 形式 是 不 能 令 人 满 
意 的 ， 原 因 如 下 : 连接 的 改变 仅 发 生 在 一 个 方向 上 ， 这 样 最 终 使 所 有 的 突 触 权 值 都 趋 于 饱 
和 。 为 了 克服 这 个 问题 ， 我 们 通过 包括 一 个 遗忘 项 g(y)w 来 改变 Hebb 假定 ， 其 中 w, 是 神 
经 元 j 的 突 触 权 值 向 量 ，g(y) 是 响应 y 的 正 的 标量 函数 。 对 g(y ) 的 惟一 强制 要 求 是 它 的 
Taylor 级 数 展开 的 常数 项 为 零 ， 这 样 我 们 可 写成 
gly;) =0 对 于 Y = 0 (9.8) 
这 个 要 求 的 意义 很 快 就 会 变 得 明显 。 给 定 这 样 一 个 函数 ， 我 们 可 以 把 网 格 中 神经 元 j 的 权 值 
向 量 改变 表示 成 
Aw, = Nyx - g(y,)W,; (9.9) 
其 中 是 算法 的 学 习 率 参数 。 右 端 第 一 项 是 Hebb 项 ， 第 二 项 是 遗忘 项 。 为 了 满足 式 (9.8)， 
对 g(y,) 选 择 线 性 函数 如 下 : 
8(%) = Vy; (9.10) 
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我 们 可 以 进一步 简化 式 (9.9) E 
¥ = Ajiw (9.11) 
用 式 (9.10) 和 (9.11) 代 入 式 (9.9) 得 到 
Aw, = nhw (x — w) (9.12) 


最 后 使 用 离散 时 间 形 式 ， 假 定 在 时 刻 n 神经 元 的 权 值 向 量 为 w(z)， 更 新 权 值 向 量 

w (n + 1) ENA) n + 1 被 定义 为 (Kohonen,1982; Ritter et al. ,1992; Kohonen, 1997a) : 

wn +1) = wn) + Cn) hyn (nr) (x - w,(n)) (9.13) 
它 被 应 用 到 网 格 中 获胜 神经 元 i 的 拓扑 邻 域 中 的 所 有 神经 元 。 式 (9.13) 具 有 将 获胜 神经 元 ; 
的 突 触 权 值 向 量 w, 向 输入 向 量 x 移动 的 作用 。 随 着 训练 数据 的 重复 出 现 ， 由 于 邻 域 更 新 使 
得 突 触 权 值 向 量 趋 于 服从 输入 向 量 的 分 布 。 因 此 算法 导致 在 输入 空间 中 特征 映射 的 拓扑 排 
序 ， 这 意味 着 网 格 中 相 邻 神经 元 会 有 相似 的 突 触 权 值 向 量 。 关 于 这 一 点 在 9.5 节 中 ， 我 们 将 
进一步 详 述 。 

式 (9.13) 为 计算 特征 映射 突 触 权 值 所 期 望 的 公式 。 除 了 这 个 公式 之 外 ， 我 们 还 需要 用 
于 选择 邻 域 函 数 ;oo《n) 的 启发 式 规则 (9.7) 式 和 男 一 个 用 于 选择 学 习 率 参数 nm) 的 启发 式 
规则 。 

学 习 率 参数 人 mn) 应 如 式 (9.13) 所 示 的 时 变形 式 ， 这 也 是 它 用 于 随机 逼近 的 要 求 。 特 别 
地 ， 它 应 从 初始 值 m 开 始 ， 然 后 随时 间 增加 而 逐渐 下 降 。 这 个 要 求 可 以 通过 选择 n(n) 指 
数 衰减 而 满足 ， 表 示 为 

nln) = noexp( - z) > n = 0,1,2,*, (9.14) 


Hh, n 是 SOM 算法 的 另 一 个 时 间 常 数 。 即 使 在 式 (9.6) 和 (9.14) 中 描述 的 邻 域 函 数 宽度 和 
学 习 率 参数 分 别 以 指数 衰减 的 公式 可 能 不 是 最 优 的 ， 但 它们 对 于 以 自 组 织 方式 构成 特征 映射 
是 足够 的 。 


自 适应 过 程 的 两 个 阶段 : 排序 和 收敛 


假定 算法 的 参数 是 正确 选择 的 ， 从 完全 无 序 的 初始 状态 开始 ，SOM 算法 怎样 逐步 导致 
一 个 从 输入 空间 抽取 的 激活 模式 的 有 组 织 表 示 ， 这 是 令 人 惊奇 的 。 我 们 可 以 把 根据 式 (9.13) 
计算 的 网 络 权 值 的 自 适应 分 解 为 两 个 阶段 :排序 或 自 组 织 阶段 及 其 后 的 收敛 阶段 。 自 适应 过 
程 的 这 两 个 阶段 描述 如 下 (Kohonen,1982,1997a): 

1. 自 组 织 或 排序 阶段 。 在 自 适应 过 程 的 第 一 阶段 形成 权 值 向 量 的 拓扑 排序 。 这 个 排序 
阶段 可 能 需要 SOM 算法 的 1000 次 迭代 ， 也 许 会 更 多 。 要 仔细 考虑 学 习 率 参数 和 邻 域 函 数 的 
选择 : 


学 习 率 参数 rn) 初始 值 应 接近 0.1; 然后 逐渐 减少 ， 但 应 保持 在 0.01 以 上 。 这 些 要 
求 的 值 可 以 在 公式 (9.14) 中 选择 yo =0.1， = 1000 得 到 满足 。 

。 SRIRERZ 及.,(n) 的 初始 化 应 包括 以 获胜 神经 元 i 为 中 心 的 几乎 所 有 神经 元 ， 然 后 随 
时 间 慢 慢 收 缩 。 尤 其 ， 排 序 阶段 可 能 需要 SOM 算法 的 1000 KEAREL, ARX 
一 些 神经 元 或 获胜 神经 元 本 身 允 许 h,;(n) 减 少 到 很 小 的 值 。 假 定 对 离散 映射 使 用 神 
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FTC HERS, WAT AY A ae Oh PRA A op 等 于 网 格 的 半径 。 相 应 地 我 们 
设 定式 (9.6) 的 时 间 常 数 mr = 1000/loga, 。 

2. 收敛 阶段 。 自 适应 过 程 的 第 二 阶段 需要 微调 特征 映射 从 而 提供 输入 空间 的 准确 统计 
量 。 作 为 一 般 性 规则 ， 组 成 收敛 阶段 的 迭代 次 数 至 少 是 网 络 中 神经 元 数目 的 500 倍 。 这 样 收 
敛 阶段 可 能 进行 几 千 次 以 至 上 万 次 的 和 迭代: 

。 对 于 好 的 统计 精度 ， 在 收敛 阶段 学 习 参 数 n(n) 应 该 保持 在 较 小 的 值 上 ， 为 0.01 数 

量 级 。 无 论 如 何 ， 不 允许 它 下 降 到 零 ; 否则 ， 网 络 会 陷入 到 亚 稳 定 状 态 。 亚 稳定 状 
态 (metastable state) 属 于 有 拓扑 缺陷 的 特征 映射 结构 。 式 (9.14) 的 指数 衰减 保证 不 可 
能 进入 亚 稳 定 状态 。 

。 邻 域 函 数 户 ,:o 应 该 仅 包 括 获胜 神经 元 的 最 近邻 域 ， 最 终 减 到 一 个 或 零 个 邻 域 神 经 

刀 。 


9.4 SOM 算法 小 结 


Kohonen 的 SOM 算法 的 本 质 是 它 用 一 个 简单 的 几何 计算 代替 类 Hebb 规则 的 复杂 性 质 和 
侧 向 相互 作用 。 算 法 的 主要 构成 /参数 有 : 

。 根据 一 定 概率 分 布 产 生 激活 模式 的 连续 输入 空间 。 

。 以 神经 元 的 网 格 形式 表示 的 网 络 拓扑 ， 它 定义 一 个 离散 输出 空间 。 

。 在 获胜 神经 元 i(x) 周 围 定义 随时 间 变 化 的 邻 域 函 数 Ay, iow (10) 0 

。 FIRER y(n) HAE 9。 ， 然 后 随 着 时 间 n 递减 ， 但 永 不 为 零 。 
对 于 邻 域 函数 和 学 习 率 参数 ， 在 排序 阶段 ( 即 开 始 的 大 约 1000 次 迭代 ) 我 们 分 别 使 用 式 (9.7) 
和 (9.14)。 为 了 好 的 统计 精度 ， 在 收敛 阶段 n(n) 在 相当 长 的 时 间 内 应 该 保持 一 个 较 小 值 
(0.01 或 更 小 )， 一 - 般 为 几 千 次 迄 代 。 对 于 邻 域 函数 ， 在 收敛 阶段 之 初 ， 它 应 仅 包 含 获 胜 神 
经 元 的 最 近 的 领域 ， 并 且 最 终 缩减 到 一 个 或 零 个 邻 域 神经 元 。 

在 初始 化 后 算法 的 应 用 中 涉及 三 个 基本 步骤 : 取样 ， 相 似 性 匹配 ， 更新。 重复 这 三 个 步 
又 直到 完成 特征 映射 的 形成 。 算 法 小 结 如 下 : 

1. 初始 化 。 对 初始 权 值 向 量 w (0) 选 择 随机 值 。 这 里 惟一 的 限制 是 对 j = 1,2,…,1， 
w(0) 互 不 相同 ， 其 中 ! 是 网 格 中 神经 元 的 数目 。 可 能 希望 保持 较 小 的 权 值 。 

另 一 种 算法 初始 化 方法 是 从 输入 向 量 1x;1 交 的 可 用 集 里 随机 选择 权 值 向 量 |w(0)1).,。 

2. 取样 。 以 一 定 概 率 从 输入 空间 取样 本 x; 向 量 x 表 示 应 用 于 网 格 的 激活 模式 。 向 量 x 
的 维 数 等 于 m。 

3. 相似 性 匹配 。 在 时 间 步 n 使 用 最 小 Euclid 距离 准则 寻找 最 匹配 (获胜 ) 的 神经 元 (x): 

i(X) = arg min | x(n) - Wi lj = 1,2,…,1 
4. 更 新 。 通 过 用 更 新 公式 
Wn+1) = WO) + o(n)hyan (nm) (x(n) - w(n)) 

调整 所 有 神经 元 的 权 值 向 量 ， 其 中 a(n) BSED BBR, hyn (n) 是 获胜 神经 元 i(x) 周 围 的 
邻 域 函数 ; 为 了 获得 最 好 的 结果 ， 人 nm) 和 hio (nn) 在 学 习 过 程 中 是 动态 变化 的 。 

5. 继续 。 继 续 步 又 2 直到 在 特征 映射 里 观察 不 到 明显 的 变化 为 止 。 
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9.5 特征 映射 的 性 质 


一 旦 SOM 算法 收 僵 ， 由 算法 计算 的 特征 映射 显示 输入 空间 的 重要 统计 特性 。 
开始 令 % 表 示 空 间 的 连续 输入 (数据 ) 空 间 ， 它 的 拓扑 由 向 量 xE8 的 度量 关系 定义 。 令 允 
表示 空间 的 离散 输出 空间 ， 其 拓扑 由 安排 一 组 神经 元 作为 网 格 的 计算 节点 来 贱 予 。 令 更 表 
示 称 为 特征 映射 的 非 线性 变换 ， 它 映射 输入 空间 必 刘 输出 空间 中， 表示 为 
@:% > A (9.15) 
式 (9.15) 可 看 成 式 (9.3) 的 抽象 ， 式 (9.3) 定 义 为 响应 输入 向 量 x 而 产生 的 获胜 神经 元 i(x) 的 
位 置 。 例 如 ， 在 神经 生物 学 中 输入 空间 & 可 以 表示 密布 于 整个 体 表面 的 体感 觉 接受 器 的 坐标 
集 。 相 应 地 ， 输 出 空间 鸡 表 示 位 于 限制 体感 觉 接受 器 的 人 脑 皮层 中 的 神经 元 集 。 


给 定 输 和 人 向量 x, SOM 算法 首先 根据 e000eeese 
特征 映射 确定 在 输出 空间 中 的 最 佳 匹 和 ee 
配 或 获胜 神经 元 。 神 经 元 i(x) 的 突 触 权 值 00 09900e0e. 离散 输出 
向 量 w 可 以 视 为 神经 元 指向 输入 空间 的 
指针 ; 即 向 量 w, 的 突 触 元 素 可 以 视 为 神 WE 
经 元 i 投影 到 输入 空间 的 图 像 坐标 。 这 两 / 本 
个 操作 在 图 9-4 中 描绘 。 特 征 映射 © 有 某 ) h 
些 重要 性 质 : AE g 
性 质 1 输入 空间 的 近似 verè f ae 
间 中 的 突 触 权 值 向 量 | wii 的 集合 表示 的 特 / | \ 
征 映射 加 对 输入 空间 吧 提 供 一 个 好 的 近 / ef | 连续 输入 空间 3 
SOM 算 法 的 基本 目标 是 通过 寻找 原型 下 7i 


w E 下 的 一 个 较 小 的 集合 存储 输入 向 量 一 一 一 
xE% 的 一 个 大 集合 ， 从 而 对 原始 输入 空间 ,i 


ee 刚才 描述 的 思想 的 “ht w 的 关系 图 
论 基 础 植 根 于 向 量 量化 理论 ( vector 输入 向 量 a 

anne theory)， 它 的 动机 是 维 数 的 削 es 编码 器 

减 或 者 是 数据 的 压缩 (Gersho and Gray, Ws 

1992 )。 因 此 给 出 这 个 理论 的 简要 讨论 是 

适宜 的 。 重建 向 量 
考虑 图 9-5， 其 中 c(x) 作 为 输入 向 量 xf(c) aoe 

x AAG By (CEN c(x) 的 解码 器 。 向 i 





量 x 从 满足 固有 概率 密度 函数 fx(x) 的 训 
练 样本 ( 即 输入 空间 % ) 中 随机 选择 。 通 过 
变化 函数 c(x) 和 x(e) 决 定 最 优 编码 - 解码 方案 使 得 极 小 化 由 


D = I, dxfy(x) d(x,x ) (9.16) 











456 











it 


330 BOS 





定义 的 期 望 失 真 ， 其 中 引入 因子 1/2 是 为 了 表达 方便 ，d (x,x ) 是 失真 (distortion) 度 量 。 积 分 
在 假定 维 数 为 m WE MASS EHI REEE d(x, x ) 的 一 个 常用 选择 是 输入 向 量 x 
和 重建 向 量 x 之 间 的 Euclid 距离 的 平方 ; 即 
d(x,x) = ||x-x ||? = (x-x)'(x-x) (9.17) 
这 样 我 们 可 把 式 (9.16) 重 写 为 
D=3| alx- x I)? (9.18) 


期 望 失真 D 最 小 化 的 必要 条 件 在 广义 Lloyd Fi tH (Gersho and Gray,1992)。 条 件 是 两 方面 
的 ; . 

条 件 1. 给 定 输入 向 量 x， 选 择 码 字 c= ec(x) 使 其 最 小 化 平方 误差 失真 | x-x(e) ||’. 

条 件 2. 给 定 码 字 c， 计 算 重 构 向 量 x = x (<) 作 为 满足 条 件 1 的 输入 向 量 x 的 中 心 。 

条 件 1 称 为 最 近邻 编码 规则 。 条 件 1 和 2 
意味 着 平均 失真 D 关于 编码 器 c(x) 和 解码 器 
x(c) 各 自 的 变化 是 稳定 的 。 为 了 实现 向 量 量 
化 ,， 广义 Lloyd 算法 以 集中 方式 运行 。 基 本 
上 ， 算 法 包含 交替 按照 条 件 1 优化 编码 器 ce(x) 
和 按照 条 件 2 优化 解码 器 x (c)， 直 到 期 望 失 
E D 达到 一 个 最 小 。 为 了 克服 局 部 最 小 问题 ， 
可 能 需要 以 不 同 初 值 运行 广 义 Lloyd 算法 若干 
次 。 

广义 Lloyd 算法 和 SOM 算法 紧密 相关 ， 
如 Luttrell(1989b) 所 示 。 可 以 通过 考虑 图 9-6 图 9-6 噪声 编码 器 - 解码 器 模型 
所 示 的 系统 描述 这 种 关系 的 形式 ， 其 中 在 编码 器 ec(x) 之 后 我 们 引入 了 独立 于 数据 的 噪声 
FE vo IRE "附加 在 编码 器 和 解码 器 之 间 的 虚构 的 “通信 信道 "上 ， 它 的 目的 是 说 明 输 出 
码 字 ce(x) 可 能 失真 的 可 能 性 。 在 图 9-6 所 示 模 型 的 基础 上 ， 可 以 考虑 期 望 失真 的 一 种 修 
正 形 式 





= 3| dxfx(x)| dyr(v) || x — x (e(x) + v) ||? (9.19) 


其 中 r(?) 为 加 性 噪声 "的 概率 密度 函数 (pdf) ， 第 二 个 积分 是 对 这 个 噪声 的 所 有 可 能 实现 。 

根据 广义 Lloyd 算法 描述 的 策略 ， 对 图 9-6 所 示 的 模型 可 考虑 两 个 不 同 的 优化 ， 一 个 属 
于 编码 带 而 男 一 个 属于 解码 器 。 为 了 找到 给 定 x 的 最 优 编码 器 ， 我 们 需要 期 望 失真 度量 D 
对 编码 向 量 e 的 偏 导数 。 利 用 (9.19)， 可 得 


| dyn(v) Sell x — x Ce)? (9.20) 


=e(x)+¥ 


为 了 找到 给 定 。 的 最 优 解 色 器 ， 我 们 需要 期 望 失 丰 度量 D MRR x (OHS, H 
式 (9.19)， 可 得 


RO) => [dxe - e(x))(x - x (ce)) (9.21) 


因此 ， 根 据 式 (9.20) 和 (9.21)， 以 前 陈述 的 广义 Loyd 算法 的 条 件 1 和 条 件 2 必须 修改 如 下 
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(Luttrell, 1989b): 
条 件 1. 给 定 输入 向 量 x， 选 择 码 字 c= cl(x) 使 其 最 小 化 失真 度量 


D, = F dvz(v) || x — x (e(x) + v) ||? (9.22) 
KE I. 给 定 码 字 c， 计算 重 构 向 量 (ec) 使 其 满足 条 件 
| dxf, (x)x(e ~ e(x))x 





F dxfx (x)x(e - e(x)) 
设置 式 (9.21) 中 的 偏 导数 Di,/ax (e) 为 0， 然 后 解 出 (ce) 可 得 式 (9.23)。 

图 9-5 描述 的 模型 可 作为 图 9-6 描述 的 模型 的 特殊 情形 。 有 具体 地 ， 如 果 设 置 噪声 ”的 概 
率 密 度 函 数 x(v) 等 于 Dirac delta 函数 Sv), AF I 和 条 件 开 分 别 归 结 为 广义 Lloyd 算法 的 条 
件 1 和 条 件 2。 

为 了 简化 条 件 1， 假 定 x(y) 为 v 的 光滑 函数 。 可 以 证 明 式 (9.22) 定 义 的 失真 度量 D, 的 
二 阶 近似 包含 两 项 (Luttrell , 1989b) : 

。 常规 失真 项 ， 由 平方 误差 失真 x-x(e) l? 定义 。 

。 由 噪声 模型 x(v) 引 起 的 曲率 (curvature) 项 。 
假设 曲率 项 小 ， 对 于 图 9-6 的 模型 条 件 I 可 以 近似 为 图 9-5 的 无 噪声 模型 的 条 件 1。 这 样 又 
使 条 件 I 变 成 以 前 的 最 近邻 编码 规则 。 


至 于 条 件 HI， 可 以 利用 随机 下 降 学 习 实现 它 。 具 体 地 ， 用 因子 | dxfx(x) 从 输入 空间 


随机 选择 输入 向 量 x， 并 且 更 新 重 构 向 量 x (eA F (Luttrell, 1989) : 
X ney (€) < KC) + mle — e(x)) [x - x oc))] (9.24) 
其 中 "为 学 习 率 参数 ，c(x) 为 条 件 1 的 最 近邻 编码 近似 。 更 新 式 (9.24) 由 检查 式 (9.21) 的 偏 
导数 可 得 。 这 个 更 新 应 用 于 所 有 的 e， 对 此 我 们 有 
z(e- e(x)) > 0 (9.25) 
可 以 认为 式 (9.24) 描 述 的 梯度 下 降 过 程 为 式 (9.19) 的 失真 度量 D, 的 一 种 最 小 化 方法 。 也 就 
是 ， 式 (9.23) 和 (9.24) 本 质 是 同类 型 的 ， 区 别 在 于 式 (9.23) 为 批 处 理 方 式 的 而 (9.24) 为 连续 
的 方式 ( 即 经 过 流 的 方式 )。 
更 新 式 (9.24) 等 同 于 式 (9.13) 的 (连续 )SOM 算法 ， 记 住 在 表 9-1 中 所 列 的 对 应 关系 。 因 
此 ， 可 以 说 用 于 向 量 量化 的 广义 Hoyd 算法 为 具有 0 邻 域 大 小 的 SOM 算法 的 批 处 理 训练 模 
式 ; 对 0 邻 域 ,x(0) =1。 注 意 ， 为 了 从 SOM 算法 的 批 处 理 方式 得 到 广义 Loyd 算法 我 们 无 
需 作 任何 近似 ， 因 为 当 邻 域 为 0 宽度 时 曲率 项 (和 所 有 高 阶 项 ) 不 作 任何 贡献 。 


表 9-1 在 SOM 算法 和 图 9-6 的 模型 之 间 的 对 应 





图 9-6 的 编码 -解码 模型 SOM 算法 
编码 器 elx) 最 佳 匹 配 神经 元 i(x) 
重 构 向 量 x (e) 突 触 权 值 向 量 w; 
PRE ERA z(e- elx)) 邻 域 函数 hji 

下 面 给 出 讨论 需 注意 的 重要 之 处 ， 


。 SOM 算法 为 向 量 量 化 算法 ， 它 提供 输入 空间 % 的 良好 近似 。 这 个 观点 提供 导出 SOM 
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算法 的 另 一 种 途径 ， 如 式 (9.24) 的 示例 。 
。 根据 这 个 观点 ，SOM 算法 中 的 邻 域 函数 .cw 有 一 个 概率 密度 函数 的 形式 。 在 Luttrell 
(1991a) ， 考 虑 对 图 9-6 的 模型 中 噪声 ”而 言 是 合适 的 零 均值 高 斯 模型 。 因 此 我 们 对 
采用 式 (9.4) 的 高 斯 邻 域 函数 又 有 了 一 个 理论 依据 。 
用 求 和 作为 对 式 (9.23) 右 端的 分 子 和 分 母 的 积分 的 近似 ， 批 处 理 SOM 仅仅 是 式 (9.23) 的 重 
写 。 注 意 在 SOM 算法 的 这 种 形式 中 ， 输 入 模式 呈现 给 网 络 的 顺序 对 特征 映射 的 最 终 形式 没 
有 影响 ， 且 无 需 学 习 率 油 度 。 但 算法 仍 需 利 用 分 域 函 数 。 
性 质 2 拓扑 排序 通过 SOM 算法 计算 的 特征 映射 四 是 拓扑 有 序 的 ， 意 味 着 网 格 中 神 
经 元 的 空间 位 置 对 应 于 输入 模式 的 特定 区 域 或 特征 。 

拓扑 排序 的 特性 ”是 更 新 公式 (9.13) 的 直接 结果 ， 它 使 获胜 神经 元 i(x) 的 权 值 向 量 w 
移 向 输入 向 量 x。 它 同样 对 距 获 胜 神经 元 i(x) 近邻 的 神经 元 j 的 突 触 权 值 向 量 w 的 移动 有 
作用 。 因 此 我 们 可 以 将 特征 映射 看 成 一 个 弹性 网 或 诬 拟 网 ， 它 有 在 输出 空间 中 描述 的 一 
维 或 两 维 的 网 格 ， 并 且 它 的 节点 具有 权 值 作为 输入 空间 % 中 的 坐标 (Riter,1995)。 因 此 算法 
的 总 的 目标 可 以 陈述 如 下 : 

指针 或 原型 以 突 触 权 值 向 量 Ww 的 形式 逼近 输入 空间 %， 使 得 特征 映射 四 以 这 样 一 种 广 
式 提供 根据 某 个 准则 而 言 表征 输入 向 量 xE 史 的 重要 特征 的 可 信赖 表示 。 


特征 映射 下 通常 在 输入 空间 多 中 显示 。 特 别 地 ， 所 有 的 指针 ( 即 突 触 权 向 量 ) 显 示 为 点 ， 相 邻 
神经 元 的 指针 按照 网 格 的 拓扑 用 线 相连 。 因 此 ， 使 用 连 线 将 两 个 指针 w, w 连 起 来 ， 表 示 
相应 神经 元 i 和 j 在 网 格 中 是 相 邻 神经 元 。 

性 质 3 密度 匹配 ”特征 映射 理 反映 输入 分 布 在 统计 上 的 变化 : ARAL PHA 
Ex 以 高 的 概率 抽取 的 区 域 映 射 到 输出 空间 中 的 更 大 区 域 ， 从 而 比 在 吧 中 样本 向 量 和 以 低 的 
概率 抽取 的 区 域 有 更 好 的 分 辩 率 。 

令 fx(%) 表 示 随 机 输入 向 量 x 的 多 维 pdf( 概 率 密度 函数 ) 。 由 定义 ， 这 个 pdf 在 整个 输入 
空间 上 的 积分 必须 等 于 1: 


[fax -1 


令 m(x) 表 示 映 射 放大 (magnification) 因 子 ， 定义 为 输入 空间 多 的 小 体积 dx 中 的 神经 元 个 数 。 
放大 因子 在 整个 输入 空间 多 的 积分 一 定 等 于 网 络 中 的 神经 元 总 数 1， 即 


| max (9.26) 
对 于 准确 匹配 输入 密度 的 SOM 算法 ， 我 们 要 求 (Amari,1980) 
m(x) œ fx(x) | (9.27) 


这 个 性 质 意 味 着 ， 如 果 输 入 空间 中 的 一 个 特殊 区 域 包含 经 常 发 生 的 刺激 ， 那 么 与 刺激 出 现 较 
少 的 输入 空间 的 区 域 相 比 ， 它 将 用 特征 映射 中 更 大 的 区 域 表示 。 

一 般 地 ， 在 二 维特 征 映 射 中 放大 因子 m(x) 不 能 表示 为 输入 向 量 x 的 概率 密度 也 数 fyx (x) 
的 一 个 简单 函数 。 只 有 在 一 维特 征 映射 时 才 可 能 导出 这 样 的 关系 。 对 这 种 特殊 情况 ,我们 发 
现 与 早 些 的 推测 (Kohonen ,1982) 相 反 ， 它 的 放大 因子 m(x) 并 不 与 fx(x) 成 比例 。 基 于 采用 的 
编码 方法 ， 在 文献 中 报告 了 两 个 不 同 的 结果 : 
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1. 最 小 失真 (畸变 ) 编 码 ， 根 据 这 个 编码 ， 式 (9.22) 的 失真 测度 中 的 曲率 项 和 高 阶 项 由 于 
了 噪声 模型 x(v) 仍 然 保 留 。 这 个 编码 方法 可 以 产生 结果 
m(x) cc fe (x) (9.28) 
这 与 标准 的 向 量 量化 器 得 到 的 结果 相同 (Luttrell , 1991) o 
2. 最 近邻 编码 ， 如 同 在 SOM 算法 的 标准 形式 中 ， 它 出 现在 忽略 曲率 项 的 时 候 。 这 个 编 
码 方法 产生 结果 (Ritter, 1991) 


m(x) œ fx’ (x) (9.29) 
我 们 前 面 关 于 一 族 经 常 发 生 的 刺激 可 以 在 特征 映射 中 由 更 大 的 区 域 来 表示 的 陈述 仍然 成 立 ， 
虽然 是 用 式 (9.27) 中 描述 的 理想 条 件 的 输出 
失真 形式 。 * 


作为 一 个 一 般 规则 (被 计算 机 仿真 确 


认 )， 由 SOM 算法 计算 的 特征 映射 往往 

趋向 于 过 高 表示 低 输入 密度 区 域 和 过 低 

表示 高 输入 密度 区 域 。 换 句 话说 ，SOM A aa 
算法 不 能 为 输入 数据 固有 的 概率 分 布 提 e7 u 
OBL RRO ARO 。 

性 质 4 特征 选择 在 具有 非 线性 ber 


分 布 的 输入 空间 中 给 定数 据 ， 自 组 织 映 
射 能 够 为 允 近 固有 分 布 选 择 一 组 最 好 的 
特征 。 | 

这 个 性 质 是 性 质 1 至 性 质 3 的 自然 a) 
结论 。 它 使 人 想起 前 一 章 讨论 的 主 分 量 输出 
分 析 的 思想 ， 但 是 如 图 9-7 所 示 ， 它 们 
有 一 个 重要 的 区 别 。 在 图 9-7a 中 展示 被 
加 性 噪声 损坏 的 线性 输入 - 输出 映射 导 D 
出 的 零 均值 数据 点 的 二 维 分 布 。 这 种 情 KE 
况 下 ， 主 分 量 分 析 工 作 得 很 好 : 它 告 i 
我 们 ， 在 图 9-7a 中 的 “线性 ”分布 的 最 好 
描述 是 定义 成 通过 原点 且 平 行 于 数据 相 
关 和 矩阵 的 最 大 特征 值 对 应 的 特征 向 量 平 
行 的 直线 ( 即 一 维 的 “ 超 平面 ")。 接 下 去 
考虑 图 9-7b 所 描述 的 情况 ， 这 是 受 零 均 


输入 


q 


值 加 性 噪声 损坏 的 非 线性 输入 - 输出 映 b) 

射 的 结果 。 在 这 第 二 种 情形 从 主 分 量 分 

析 计 算 的 直线 逼近 不 可 能 提供 可 接受 的 A ERRIA 
数据 描述 。 另 一 方面 ， 利 用 建立 在 一 维 b) 非 线性 输入 - 输出 映射 产生 的 二 维 分 布 


神经 元 网 格 的 自 组 织 映 射 由 于 它 的 拓扑 
有 序 性 质 能 够 克服 这 个 逼近 问题 。 后 一 个 逼近 在 图 9-7b 中 说 明 。 
AME, PRATT AY A E ER ER E h TY (principal curve) 或 主 曲 面 
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( principal surface) HY % iM VE (Hastie and Stuetzle,1989) ， 因 此 可 以 看 成 是 主 分 量 分 析 的 非 线性 
推广 。 


9.6 计算 机 仿真 


由 两 维 分 布 驱动 的 两 维 网 格 

我 们 使 用 计算 机 仿真 来 说 明 SOM 算法 的 行为 ， 通 过 研究 100 个 神经 元 组 成 的 网 络 ， 排 
列 成 10 行 和 10 列 的 两 维 网 格 。 网 络 用 二 维 输入 向 量 x 训练 ， 它 的 分 量 x, 和 x, 均匀 分 布 在 
区 域 i( -1< x < +1);(-1<zx,<+1)| 上 。 为 了 初始 化 网 络 ， 突 触 权 值 从 一 个 随机 集合 抽 


取 。 
图 9-8 显示 训练 网 络 学 习 表 示 输 入 分 布 的 三 个 阶段 。 图 9- 8a 显示 用 来 训练 特征 映射 的 











461| 数据 的 均匀 分 布 。 图 9- 8b 显示 随机 抽取 的 突 触 权 值 的 初始 值 。 图 9-8c 和 图 9- 8d 分 别 表 示 











了 在 排序 阶段 和 收敛 阶段 完成 后 突 触 权 值 向 量 的 值 ， 画 出 输入 空间 中 点 的 图 形 。 在 图 9-8 中 
将 网 络 中 相 邻 神经 元 用 线 连 起 来 (通过 行 和 列 )。 











图 9-8 
a) 输 入 数据 分 布 b) 二 维 网 格 初始 情况 。) 排 序 阶段 之 后 网 格 情况 ”中 收敛 阶段 之 后 网 格 情况 
图 9- 8 所 示 的 结果 展现 表征 SOM 算法 学 习 过 程 特点 的 排序 阶段 和 收敛 阶段 。 图 9-8c 显 
示 排 序 阶段 ， 映 射 展 开 形 成 的 网 格 。 在 这 个 阶段 之 后 神经 元 映射 为 正确 的 排序 。 在 收敛 阶段 
映射 散 开 充满 输入 空间 。 在 第 二 阶段 结束 后 ， 如 图 9-8d 所 示 ， 映 射 中 神经 元 的 统计 分 布 接 
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近 输 入 向 量 的 分 布 ， 除 了 一 些 边缘 效果 之 外 。 比 较 图 9- 8d 中 特征 映射 的 最 终 状 态 和 图 9-8a 
的 输入 均匀 分 布 ， 我 们 看 出 收敛 阶段 映射 的 调整 抓 住 了 可 在 输入 分 布 中 看 到 的 局 部 不 规则 
性 。 i 

SOM 算法 的 拓扑 排序 性 质 在 图 9-8d 得 到 很 好 说 明 。 尤 其 观察 到 算法 (在 收敛 之 后 ) 抓 住 
了 输入 中 均匀 分 布 的 固有 拓扑 。 图 9- 8 所 示 的 计算 机 仿真 的 输入 空间 % 和 输出 空间 都 是 两 
维 的 。 


由 两 维 分 布 驱动 的 一 维 网 格 


我 们 现在 考查 当 输 入 空间 % 的 维 数 大 于 输出 空间 % 的 维 数 的 情况 。 尽 管 不 匹配 ， 特 征 映 
射 别 常常 能 形成 输入 分 布 的 拓扑 表示 。 图 9-9 显示 在 特征 映射 演化 过 程 中 的 三 个 不 同 的 阶 
段 ， 它 的 初始 化 如 图 9-9b 所 示 ， 从 矩形 中 抽取 数据 进行 训练 如 图 9-9a 所 示 ， 但 是 ， 这 次 计 
算是 在 100 个 神经 元 的 一 维 网 格 中 进行 的 。 图 9-9c 和 图 9- 9d 分 别 表示 排序 和 收敛 之 后 的 特 
征 映射 。 这 里 我 们 看 到 为 了 尽 可 能 紧密 地 填充 矩形 从 而 提供 二 维 输入 空间 的 固有 拓扑 的 良 
好 近似 ， 用 算法 计算 的 特征 映射 是 非常 失真 的 。 在 图 9-9d 所 示 的 近似 曲线 类 于 Peano 曲线 
(Peano curve)。 以 图 9-9 的 特征 映射 为 例 的 这 种 运算 被 称 为 维 数 前 减 (dimensionality reduction) , 
其 中 输入 空间 % 由 将 它 投影 到 的 低 维 输出 空间 来 表示 。 





图 9-9 
a) 二 维 输入 数据 分 布 b) 一 维 网 格 初始 情况 ec) 排序 阶段 之 后 的 网 格 情况 ”d) 收 伍 阶 段 之 后 的 网 格 情况 
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仿真 的 参数 设置 


| 464 | 图 9- 10 ERATARA BY SB Sa Rh, (MORMI RSE n(n) 随 时 间 ( 即 回合 次 
数 ) 的 变化 。 图 9- 10a BAN AY SB IR PE oln) FRIRE mw = 18， 然 后 在 排序 阶段 的 
1000 次 迭代 中 衰减 到 大 约 为 1。 在 同一 阶段 ， 学 习 率 参数 mn) 开 始 时 初始 值 n。= 0.1， 然 后 
衰减 到 0.037。 图 9- 10c 表示 位 于 一 维 网 格 的 中 点 的 获胜 神经 元 周围 神经 元 的 初始 高 斯 分 布 。 
图 9- 10d 显示 在 排序 阶段 结束 后 邻 域 函数 的 形状 。 在 收 钱 阶段， 学 习 率 参数 在 5000 步 选 代 
中 从 0.037 线性 下 降 到 0.001。 在 同一 阶段 ， 邻 域 函 数 基本 上 减少 到 0。 





a(n) 
© S 
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d) 
9-10 
a) 邻 域 函数 参数 (ERRER b) 学 习 率 参数 人 nm) 的 指数 套 碱 “o) 高 斯 邻 域 函 数 的 初始 形状 
d) 排 序 阶段 结束 后 ( 即 收敛 阶段 开始 ) 邻 域 函数 的 形状 
除了 邻 域 函数 是 二 维 的 外 ， 图 9-8 涉及 的 二 维 网 格 的 计算 机 仿真 在 排序 阶段 和 收敛 阶段 
的 说 明 与 一 维 网 格 的 情况 相似 。 参 数 o(n) 从 初始 值 mw =3 开始 ， 然 后 在 1000 FER PRL 
到 0.75。 图 9-11 显示 在 10x 10 的 二 维 神经 元 网 格 中 获胜 神经 元 在 点 (7, 8) 和 og =3 时 二 维 
高 斯 邻 域 函数 h ;的 初始 值 。 
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图 9-11 在 10x 10 的 二 维 神经 元 格 形 中 获胜 神经 元 在 点 (7,8) 
处 的 二 维 高 斯 邻 域 函 数 的 初始 情况 


9.7 学 习 向 量 量化 


在 前 面 9.6 节 讨 论 的 向 量 量 化 ( vector 
quantization) ， 是 利用 输入 向 量 的 固有 结构 进行 数据 
压缩 的 技术 (Gersho and Gray,1992)。 具 体 地 , 输入 空 
间 被 分 成 一 些 不 同 区 域 ， 并 且 对 每 一 个 区 域 定义 一 
个 重建 向 量 。 当 一 个 新 的 输入 向 量 提供 给 量化 器 
时 , 首次 确定 向 量 所 在 的 区 域 并 且 利 用 该 区 域 的 重 
构 向 量 表 示 输 入 向 量 。 这 样 ， 使 用 重建 向 量 的 编码 
替代 原始 输入 向 量 来 存储 或 传输 ， 以 一 定 的 失真 代 
价 可 实现 在 存储 或 传输 带宽 上 的 重大 节省 。 可 能 的 
重 构 向 量 集 被 称 作 量化 器 的 码 书 (code book)， 而 它 
的 成 员 被 称 为 码 字 (code word)。 

一 个 有 最 小 编码 失真 的 向 量 量化 器 被 称 作 
Voronoi 单元 或 最 近邻 域 量化 器 ， 因 为 关于 输入 空间 
点 集 的 Voronoi 单元 对 应 于 基于 Euclid 度量 按 最 近邻 
规则 对 该 空间 的 剖 分 (Gersho and Gray，1992)。 图 








图 9-12 包含 4 个 单元 的 Voronoi 图 
(经 EEE 许可 , 改 自 R.M.Gray,1984) 
9-12 显 示 一 个 输入 空间 分 成 四 个 Voronoi 单元 及 它们 相关 的 Voronoi 向 量 ( 即 重 构 向 量 ) 的 例子 。 
每 个 Voronoi 单元 包含 输入 空间 中 的 那些 点 ， 它 们 在 所 有 的 点 中 最 接近 Voronoi 向 量 。 

SOM 算法 提供 一 个 无 监督 方式 下 计算 Voronoi BK, AUDA RE 





338 PIF 





神经 元 突 触 权 值 向 量 确定 ; 这 仅仅 是 在 9.6 节 中 讨论 的 SOM 算法 的 性 质 1 的 重新 陈述 。 如 在 
图 9-13 所 描绘 的 一 样 ， 特 征 映射 的 计算 可 以 视 为 自 适应 解决 模式 分 类 问题 两 步 中 的 第 一 步 。 
第 二 步 是 学 习 向 量 量 化 ， 它 提供 一 个 最 后 细 调 特征 映射 的 机 制 。 


输入 自 组 织 特征 学 习 向 量 C> | 类 别 
BRET 量化 器 : 标号 


教师 
图 9-13 利用 自 组 织 特 征 映 射 和 学 习 向 量 量 化 器 的 自 适应 模式 分 类 框图 


学 习 向 量 量化 器 (leaming vector quantization,LVQ )' 中 是 监督 学 习 技 巧 ， 它 使 用 分 类 消息 来 
轻微 移动 Voronoi 向 量 ， 以 便 提高 分 类 器 的 决策 区 域 质量 。 从 输入 空间 随机 抽取 一 个 输入 向 
Bx. 如果 输入 向 量 x 的 类 别 标号 和 Voronoi 向 量 w 符合 ，Voronoi 向 量 w 向 输入 向 量 x 的 方 
向 上 移动 。 如 果 相 反 ， 输 入 向 量 x 的 类 别 标 号 和 Voronoi 向 量 w 不 符合 ，Voronoi 向 量 w 向 离 
开 输 入 向 量 x 的 方向 移动 。 

Bel w; 4-1 表示 Voronoi HRE, [x 过 ;表示 输入 (观察 ) 向 量 集 。 假 定 输入 向 量 多 于 
Voronoi 向 量 ， 在 实际 中 这 是 典型 的 情况 。 学 习 向 量 量化 (LVQ) 算 法 如 下 : 

(i) {BE Voronoi 向 量 w, 距离 输入 向 量 x 最 近 。 令 @。 表示 Voronoi 向 量 w, 的 类 别 ， Gy, 

表示 向 量 x, 的 类 别 标号 。Voronoi 向 量 w, 调整 如 下 ， 
。 MRE, = 6, W 


w.(2 +1) = w.(n) +4,1x; —w.(n)] (9.30) 
其 中 0<a, <1 
。 FAR, WRC, 4%, , M 
w.(n +1) = w.(n) -a,[x; -w,(n)] (9.31) 


Gi) EAE Voronoi 向 量 不 作 调 整 。 

我 们 希望 学 习 系 数 a, 随 着 迭代 次 数 的 增加 而 递减 。 例 如 o, 初始 值 为 0.1 或 更 小 ， 然 
后 随 着 ”线性 递减 。 在 通过 输入 数据 几 遍 之 后 ，Voronoi 向 量 通常 收敛 并 且 训 练 完成 。 然 而 ， 
如 果 应 用 方法 不 小 心 ， 可 能 会 遇 到 困难 。 


9.8 计算 机 实验 : 自 适 应 模式 分 类 


在 模式 分 类 中 ， 第 一 步 和 最 重要 的 一 步 是 特征 选择 (抽取 )， 它 一 般 在 无 监督 方式 下 完 
成 。 第 一 步 的 目标 是 选择 小 的 合理 特征 集合 ， 在 其 中 ( 待 分 类 的 ) 输 入 数据 的 本 质 信息 内 容 被 
集中 起 来 。 由 于 在 9.5 节 讨论 的 自 组 织 映射 性 质 4， 它 适合 特征 选择 的 任务 ， 尤 其 是 当 输 入 
数据 由 非 线 性 过 程 产生 时 。 

模式 识别 的 第 二 步 是 实际 的 分 类 ， 从 输入 数据 选择 特征 赋予 每 个 类 。 尽 管 自 组 织 映 射 设 
计 用 来 充当 分 类 的 角色 ， 为 了 最 好 的 性 能 建议 对 分 类 的 第 二 步 结合 监督 学 习 程序 运行 。 自 组 
织 映 射 和 监督 学 习 模 式 的 结合 构成 本 质 上 混合 的 自 适应 模式 分 类 的 基础 。 

这 种 模式 分 类 的 混合 方法 可 以 采取 不 同 的 形式 ， 取 决 于 监督 学 习 格式 是 怎样 实现 的 。 一 
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个 简单 的 格式 是 使 用 前 一 节 描 述 的 学 习 向 量 量化 器 。 这 翌 我 们 有 如 图 9- 13 所 示 的 两 步 自 适 
应 模式 分 类 器 。 

在 这 个 实验 里 我 们 再 次 讨论 标号 1( 类 %, ) 和 标号 2( 类 %, ) 的 部 分 重 每 二 维 高 斯 分 布 模式 
的 分 类 ， 在 第 4 章 里 首次 描述 时 它 涉 及 用 反 向 传播 算法 训练 的 多 层 感知 器 的 应 用 。 试 验 所 用 
数据 的 散 列 图 如 图 4-13 所 示 。 

图 9- 14a 显示 完成 SOM 算法 训练 后 5 x 5 神经 元 的 二 维特 征 映 射 。 特 征 映射 已 被 标定 ， 
根据 对 从 输入 分 布 中 抽取 的 测试 数据 的 响应 每 个 神经 元 被 指定 为 一 个 类 或 男 一 个 类 , 图 L468 
9-14b 显 示 由 特征 映射 运行 本 身 所 实现 的 决策 边界 。 

图 9- 14c 显示 利用 LVQ 以 监督 方式 调整 后 的 修正 的 特征 映射 。 图 9- 14d 显示 SOM 和 
LVO 算法 联合 产生 的 决策 边界 。 比 较 这 两 个 图 以 及 它们 在 图 9- 14a 和 图 9- 14b 对 应 部 分 ,我 
们 从 量 的 方面 看 出 利用 LVQ 所 获得 的 效益 。 
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a) 标 定 后 的 自 组 织 映射 b) 部 分 a 的 特征 映射 所 建立 的 决策 边界 
c) 学 习 向 量 量化 后 标定 的 映射 、d) 部 分 。 的 特征 映射 所 建立 的 决策 边界 
表 9-2 给 出 特征 映射 自身 和 特征 映射 结合 学 习 向 量 量化 器 的 模式 分 类 性 能 的 小 结 。 其 中 
给 出 的 结果 为 10 次 独立 试验 所 得 的 结果 ， 每 次 试验 涉及 使 用 30 000 个 模式 作为 测试 数据 。 
在 每 次 试验 中 使 用 LVQ 分 类 性 能 总 有 提高 。 特 征 映射 本 身 的 平均 分 类 性 能 为 79.61% ， 而 特 Lel 
征 映射 结合 学 习 向 量 量化 器 的 平均 分 类 性 能 为 80.52% ， 这 表示 对 特征 映射 本 身 有 0.91% 的 
提高 。 作 为 参考 框架 ， 我 们 回想 这 个 试验 的 最 优 Bayes 分 类 器 性 能 为 81.51% 。 
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表 9-2 对 用 5x5 网 格 的 二 维 重 本 高 斯 分 布 的 计算 机 试验 分 类 性 能 (百分比 ) 小 结 








4 k ay 
试 验 特征 映射 自身 特征 映射 和 学 习 向 量 
量化 器 串联 结合 
1 79.05 80.18 
2 79.79 80.56 
3 79.41 81.17 
4 79.38 79.84 
5 80.30 80.43 
6 79.55 80.36 
7 79.79 80.86 
8 78.48 80.21 
9 80.00 80.51 
10 80.32 81.06 
平均 79.61% 80.52% 
99 分 层 向 量 量化 


在 9.6 节 自 组 织 特征 映射 的 性 质 1 的 讨论 中 ， 我 们 指出 在 向 量 量化 方面 它 与 广义 Loyd 
算法 紧密 相关 。 向 量 量化 是 有 损 (lossy) 数 据 压缩 的 一 种 形式 ， 有 损 的 意思 是 指 一 些 包含 在 输 
入 数据 中 的 信息 由 于 压缩 的 结果 丢失 了 。 数 据 压 缩 植 根 于 Shanon 信息 论 的 一 个 分 支 ， 称 为 
率 失真 (rate distortion) 理 论 ( Cover and Thomas,1991)。 为 了 目前 处 理 的 分 层 向 量 量化 的 目的 ， 
以 陈述 下 面 率 失真 理论 的 基本 结果 作为 开始 是 很 适合 的 (Gray,1984): 

通过 获得 向 量 编码 而 不 是 标量 编码 ， 总 是 能 够 取得 好 的 数据 压缩 性 能 ， 即 使 数据 源 是 无 
记忆 的 (例如 ， 它 提供 一 系列 独立 随机 变量 )， 或 者 数据 压缩 系统 有 记忆 的 ( 即 编码 器 的 动作 
依赖 于 编码 器 以 前 的 输入 或 输出 )。 


这 个 基本 结果 构成 对 向 量 量 化 作出 贡献 的 广泛 研究 工作 的 基础 (Gersho and Gray,1992) 。 

然而 ， 传 统 的 向 量 量化 算法 要 求 大 量 的 计算 ， 这 妨碍 了 它们 的 实际 使 用 。 向 量 量化 最 费 
时 的 部 分 是 编码 操作 。 为 了 编码 过 程 ， 输 入 向 量 必须 与 每 一 个 在 码 书 中 的 码 字 向 量 作 比 较 ， 
以 便 决 定 哪 一 个 特别 的 码 字 产 生 最 小 失真 度 。 例 如 对 于 码 书 包含 N 个 码 向 量 ， 编 码 所 花 的 
时 间 依 赖 于 WV 的 阶 ， 这 样 对 大 的 N 值 所 花 时 间 就 多 。 在 Luttrell(1989a) 描 述 一 个 多 阶段 分 层 
(multistage hierarchical) 向 量 量 化 器 ， 它 用 编码 速度 换取 精度 。 这 个 模式 不 是 标准 的 码 书 的 树 
搜寻 ; 它 是 真正 新 的 。 多 阶段 分 层 向 量 量化 器 试图 将 所 有 的 向 量 量化 过 程 分 解 成 许多 子 操 
作 ， 每 个 子 操作 仅 要 求 少量 的 计算 。 理 想 的 分 解 对 每 个 子 操作 简化 为 简单 的 查 表 。 通 过 巧妙 
地 使 用 SOM 算法 来 训练 量化 器 的 每 一 阶段 ， 准 确 性 的 丢失 可 能 很 少 ( 低 到 几 分 之 一 分 贝 
(decibel) ) ， 同 时 计算 速度 的 增益 可 能 很 大 。 

考虑 两 个 向 量 量化 器 VQ 和 VQ, ， 其 中 VO, 将 它 的 输出 送 到 VO, 作为 其 输入 。VQ, 的 输 
出 是 应 用 于 VQ, 的 原 输入 信号 的 最 终 编 码 形式 。 在 运行 它 的 量化 过 程 中 ，VQ, 不 可 避免 地 抛 
弃 一 些 信息 。 就 VQ, Ma, VO 仅 有 的 作用 是 扭曲 VO, 输出 的 信息 。 这 样 很 明显 对 VO 的 
正确 的 训练 方法 是 SOM 算法 ， 它 说 明 VQ, 诱导 的 信号 失真 (Luttrell, 1989a)。 为 了 使 用 广义 
Lloyd 算法 来 训练 VQ, ， 我 们 仅 需要 假定 VO, 的 输出 在 重建 之 前 没有 被 损坏 。 从 而 我 们 无 需 
引入 噪声 模型 (在 VQ, 的 输出 ) 及 相应 的 有 限 宽 度 邻 域 函 数 。 
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我 们 可 以 推广 这 个 启发 式 的 结论 到 多 阶段 量化 器 。 必 须 设计 每 一 阶段 使 之 考虑 所 有 的 后 
输出 


面 阶段 导致 的 失真 并 且 为 它 建立 噪声 模型 。 
为 这 样 做 ， 使 用 SOM 算法 训练 量化 器 的 所 
有 阶段 ， 除 了 最 后 一 个 阶段 适宜 用 广义 的 
Lloyd 算法 训练 。 

分 层 向 量 量化 过 程 是 多 阶段 向 量 量化 
的 特例 (Luttrell, 1989a) 。 作 为 一 种 例证 ， 考 
上 谍 4x1l 的 输入 向 量 x= [axax x ]7 的 
量化 。 在 图 9- 15a 我 们 给 出 用 于 x 的 单 阶段 
向 量 量化 器 。 另 外 ,我们 可 以 使 用 如 图 
9- 15b 所 描绘 的 两 阶段 分 层 量化 器 。 这 两 个 
模式 的 重要 区 别 是 在 图 9- 15a 的 量化 器 输入 
维 数 为 4 而 在 图 9-15b 中 它 是 2。 因 此 ,图 
9-15b 的 量化 器 要 求 小 规模 的 查 用 表 ， 因 此 
比 图 9- 15a 的 量化 器 实现 简单 。 这 是 分 层 量 
化 器 比 传统 量化 器 优越 之 处 。 

Luttreli( 1989a) 展示 多 阶段 分 层 向 量 量 











两 个 输入 的 
向 量 量化 器 
两 个 输入 的 
向 量 量化 器 


Ò O 0 O Ò Ò 
Xi Xa xy Xa xy X x3 X4 


a) b) 






输出 








图 9-15 
a) 具 有 四 个 输入 的 单 阶段 向 量 量化 器 
b) 使 用 两 个 输入 的 两 阶段 分 层 向 量 量 化 器 
(48 É S.P. Lattrell(1989a), British Crown 版 权 ) 
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编码 准确 度 丢失 很 少 。 在 图 9-16 重新 产生 了 Luttrell 的 结果 ， 它 是 利用 一 阶 自 回 归 (first-order 
autoregressive, AR ) 模 型 : 

x(n+1)= px(n) + v(n) (9.32) 
产生 的 ， 具 有 高 斯 噪声 过 程 ， 其 中 p 为 AR 系数 ，v(n) 为 独立 同 分 布 (idd) 的 高 斯 随机 变量 ， 
具有 有 零 均 值 和 单位 方差 。 因 此 我 们 可 以 证 明 x(n) 的 特征 如 下 : 





E[x(n)]=0 (9.33) 
E[ x° (n)] = i L (9.34) 
-0 
E[ x(n + 1)x(n)] _ 
Elx (n)] =e (9.35) 





因此 6 也 可 看 成 时 间 序 列 |x(n)1 的 相关 系数 。 为 了 按照 式 (9.32) 初 始 化 时 间 序 列 的 生成 ， 对 
x(0) 使 用 均值 为 零 和 方差 为 1(1 -gp ) 的 高 斯 随机 变量 ， 并 且 相 关系 数 使 用 p=0.85。 

对 于 向 量 量化 使 用 类 似 于 图 9-15b 中 的 二 分 树 一 样 具有 四 维 输入 空间 的 分 层 编码 器 。 对 
于 AR 时 间 序 列 |x(n)| ,平移 对 称 意 味 着 仅 需 两 个 不 同 的 查 用 表 (look-up table)。 每 张 表 的 大 
小 按 指数 依赖 于 输入 比特 数 ， 而 线性 依赖 于 输出 比特 数 。 在 训练 过 程 中 ， 需 要 大 量 比 特 数 表 
示 式 (9.24) 描 述 的 更 新 的 正确 计算 的 数 ; 这 样 在 训练 期 间 不 使 用 查 用 表 。 但 是 一 旦 训练 完 
成 ， 比 特 数 可 降低 至 它们 的 正常 水 平 ， 并 且 按 要 求 填充 表 项 。 对 于 如 图 9-15b 显示 的 编码 
器 ， 每 个 输入 样本 用 4 比特 近似 。 对 解码 器 的 各 个 阶段 ， 使 用 N( = 17) 个 码 字 向 量 ， 这 样 从 
每 个 查 用 表 的 输出 比特 数 也 近似 为 4。 因 此 第 一 阶段 和 第 二 阶段 的 查 用 表 的 地 址 空间 的 大 小 
为 256( =2'“)， 这 意味 着 查 用 表 的 表示 所 需 存储 要 求 是 适中 的 。 

图 9-16 显示 用 x(n) 作 为 输入 得 到 的 编码 - 解码 结果 。 图 9-16a 的 下 半 部 分 显示 两 阶段 
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中 每 个 阶段 的 码 字 向 量 为 一 条 嵌入 二 维 输入 空间 的 曲线 ; 图 9-16a 的 上 半 部 分 表示 相应 的 用 
16 x 16 比特 的 共生 (co-occurrence) 和 矩阵 的 估计 。 图 9-16b 表示 如 下 时 间 序 列 片段 : 

。 由 第 一 个 编码 阶段 计算 的 码 字 向 量 。 

。 保持 其 他 变量 固定 ， 由 第 二 阶段 最 小 化 均值 平方 失真 计算 出 的 重 构 向 量 。 
图 9-16c 显示 512 个 样本 ， 包 括 原始 时 间 序 列 (顶部 曲线 ) 和 从 最 后 一 个 编码 器 阶段 的 输出 得 
到 的 它 的 重 构 ( 底 部 曲线 ); 图 9-16c 的 水 平方 向 的 刻度 是 图 9-16b 的 一 半 。 最 后 ， 图 9-16b 表 
示 从 一 对 样本 (原始 时 间 序 列 样本 和 它 的 相应 重 构 ) 产 生 的 共生 和 矩阵。 图 9-16d 中 的 带宽 指示 
由 分 层 向 量 量化 产生 的 失真 程度 。 

检查 图 9-16c 的 波形 ， 看 出 重 构 对 原始 时 间 序 列 是 好 的 表示 ， 除 了 一 些 正和 负 的 峰值 被 
剪除 。 根 据 Luttrell( 1989a) 归 整 化 后 的 均值 平方 失真 经 计算 为 0.15， 它 同 每 个 样本 用 一 比特 
的 单 阶段 4 - 样本 块 编码 器 所 获得 的 8.8 分 贝 几乎 一 样 好 (0.5 分 贝 的 损失 ) (Jayant and Noll, 
1984) 。 








阶段 1 阶段 2 
a) 





c) d) 


图 9-16 ”用 于 相关 高 斯 噪声 输入 的 两 阶段 编码 /解码 结果 
相关 系数 o=0.85( É S.P. Luttrell(1989a), British Crown 版 权 ) 


9.10 ” .上下文 映 射 


自 组 织 特 征 映射 有 两 种 明显 不 同 的 可 视 化 方法 。 在 一 种 可 视 化 方法 中 ， 特 征 映射 被 视 为 
有 弹性 的 网 络 ， 此 时 向 量 权 值 被 视 为 对 应 神经 元 的 指针 ， 指 向 输入 空间 。 这 种 可 视 化 方法 特 
别 适用 于 显示 SOM 算法 的 拓扑 排序 属性 ， 如 9.6 节 给 出 的 计算 机 仿真 实验 结果 所 说 明 。 

在 第 二 种 可 视 化 方法 中 ， 对 两 维 网 格 (表示 网 络 的 输出 层 ) 的 神经 元 赋予 类 别 标号 ， 它 取 
决 于 每 个 测试 模式 (以 前 未 见 过 ) 怎 样 激活 自 组 织 网 络 中 的 特定 神经 元 。 作 为 仿真 第 二 阶段 的 
结果 ， 两 维 网 格 中 的 神经 元 被 剖 分 成 许多 相干 区 域 (coherent region) ， 相 于 的 含义 是 神经 元 
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个 分 组 表示 邻接 符号 或 标号 的 一 个 独特 的 集合 (Ritter and Kohonen, 1989)。 这 里 假定 第 一 步 产 
生 良 序 的 特征 映射 的 正确 条 件 成 立 。 

Hm, FER 9-3 中 给 出 的 数据 集合 ， 它 们 是 关于 许多 不 同 动物 的 。 表 的 每 一 列 是 对 动 
物 的 示意 性 描述 ， 它 是 根据 左边 13 个 不 同 的 属性 的 出 现 ( = 1) 或 不 出 现 ( =0)。 一 些 属性 例 
如 “羽毛 "和 “两 条 腿 " 是 相关 的 ， 而 其 他 许多 属性 是 不 相关 的 。 对 表 头 给 出 的 每 个 动物 ， 它 的 
属性 代码 x。 是 由 13 个 属性 构成 。 动 物 本 身 由 符号 代码 x, 指定 ， 符 号 代码 的 组 成 必须 不 表 
达 动 物 的 任何 信息 或 它们 之 间 已 知 的 相似 点 。 例 如 当前 的 例子 ，x, 是 由 一 个 列 向 量 构成 ， 
ECHR k DLR, RIRIH k = 1,2,… ,16 ， 赋 予 一 个 固定 值 c; 剩 下 的 元 素 都 置 成 0。 参 数 
a 与 属性 代码 比较 而 言 决 定 符号 代码 之 间 的 相关 影响 。 为 了 确定 属性 代码 是 重要 的 一 个 ，w 
选择 为 0.2。 每 个 动物 的 输入 向 量 x 是 一 个 29 个 元 素 的 向 量 ， 表 示 属 性 代码 x。 和 符号 代码 


x, 的 联合 ， 表 示 为 
e Rl] 


最 后 ， 每 个 数据 向 量 都 被 归 一 化 为 单元 长 度 。 这 样 产生 的 数据 集 的 模式 被 呈现 给 10 x 10 的 
两 维 神经 元 网 格 ， 神 经 元 的 权 值 按照 9.4 节 中 阐述 的 SOM 算法 调整 。 训 练 连续 进行 2000 次 
和 迭代， 此 时 特征 映射 应 该 达到 一 个 稳定 状态 。 接 着 ， 由 一 个 动物 包含 的 符号 代码 x = [x ， 
0] 定义 的 测试 模式 呈现 给 自 组织 网 络 ， 并 且 确 定 具 有 最 强 响应 的 神经 元 。 对 所 有 的 16 种 
动物 都 重复 这 样 做 。 

RAI 动物 的 名 称 和 它们 的 属性 











动物 A 母 鸡 B © 猫头鹰 E E IE 狗 A HF E RW D 斑马 母 牛 
小 型 1 1 1 1 1 1 0 0 0 0 1 0 0 0 0 0 

a oa 0 0 0 0 0 0 1 1 1 1 0 0 0 0 0 0 
大 型 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 

2 条 腿 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 

4 条 腿 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 
有 毛发 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 
BE 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 
聚 0 0 0 0 0 0 0 0 0 1 0 0 1 1 1 0 
羽毛 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 
Ge 0 0 0 0 1 1 1 1 0 1 1 1 1 0 0 0 
奔跑 0 0 0 0 0 0 0 0 1 1 0 1 1 1 1 0 
EK 飞翔 1 0 0 1 1 1 0 0 0 0 0 0 0 0 0 
游泳 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 





按 刚才 陈述 的 方法 处 理 ， 我 们 得 到 图 9-17 所 示 的 映射 ,其 中 标定 名 称 的 神经 元 代表 它 
们 对 各 自 的 测试 模式 有 最 强 的 响应 ， 点 代表 有 较 弱 的 响应 的 神经 元 。 

图 9-18 对 相同 的 自 组 织 网 络 显示 “模拟 电极 渗透 映射 ”的 结果 。 但 是 ， 图 中 网 络 的 每 个 
神经 元 用 使 之 产生 最 好 响应 的 特定 动物 名 称 标记 。 图 9-18 清楚 地 表明 在 16 个 不 同 的 动物 中 
特征 映射 能 抓 住 “ 种 属 关 系 "。 这 里 有 三 个 不 同 的 聚 类 ， 一 个 表示 ”“ 鸟 类 ”， 第 二 个 表示 “平和 
的 种 属 ”, 第 三 个 表示 “猎手 ”。 

图 9-18 表示 的 特征 映射 类 型 称 为 上 下 文 映 射 或 语义 映射 (Ritter and Kohonen, 1989; 
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图 9-17 包含 对 它们 各 自 输入 具有 最 强 响 应 的 标定 神经 元 的 特征 映射 









dog dog fox fox fox cat cat cat | eagle eagle 
dog dog fox fox fox cat cat cat | eagle eagle 
wolf wolf wolf fox cat tiger tiger tiger | owl owl 

wolf wolf lion lion lion tiger tiger tiger | hawk hawk 
wolf wolf lion lion lion tiger tiger tiger } hawk hawk 


dove dove 
hen hen dove dove 


wolf 





wolf 





horse 
hen hen dove dove 
hen hen duck goose 
duck duck duck goose 


horse horse 
zebra zebra 
zebra zebra 


图 9-18 利用 “模拟 电极 渗透 映射 "的 语义 映射 。 映 射 被 
分 成 三 个 不 同 区 域 ， 分别 代表 鸟 类 、 平 和 种 属 及 “猎手 ” 


Kohonen,1997a)。 这 个 映射 与 大 脑 皮质 的 映射 相似 ( 即 在 大 脑 皮质 里 形成 的 计算 上 映射 )， 这 在 
9.2 节 里 作 了 简要 讨论 。 作 为 利用 SOM 算法 产生 的 结果 ， 上 下 文 映 射 在 众多 领域 找到 了 应 
用 , 诸如 文本 的 音素 类 别 的 无 监督 分 类 ， 遥 感 (Kohonen, 1997a)， 数 据 探测 或 数据 挖掘 
(Kohonen 1997b) 。 


9.11 小 结 和 讨论 


由 Kohonen(1982) 提 出 的 自 组 织 映射 是 一 个 巧妙 的 神经 元 网 络 ， 它 建立 在 一 维 或 两 维 的 
神经 元 网 格 上 ， 用 于 捕获 包含 在 输入 (数据 ) 空 间 中 感 兴趣 的 特征 。 为 此 ， 它 利用 神经 元 权 值 
向 量 作为 原型 提供 一 个 输入 数据 的 结构 表示 。SOM 算法 受到 神经 生物 学 的 激发 ， 综 合 第 8 章 
中 讨论 的 所 有 自 组 织 的 基本 机 制 : 竞争 、 合 作 和 自 放大 。 因 此 它 可 以 作为 虽 退 化 但 一 般 的 模 
型 ， 描 述 在 复杂 系统 中 从 完全 混乱 开始 最 终 出 现 整 体 有 序 的 现象 。 

自 组 织 映 射 也 可 以 被 看 作 向 量 量化 器 ， 从 而 提供 一 个 导出 调整 权 值 向 量 的 更 新 规则 的 原 
理性 方法 (Luttrell, 1989b) 。 后 一 种 方法 明确 地 强调 邻 域 函数 作 为 概率 密度 函数 的 作用 。 

然而 应 该 指出 ， 基 于 使 用 在 式 (9.19) 中 的 平均 分 布 D 作为 极 小 化 代价 函数 的 后 一 种 方 
法 , 仅 当 特征 映射 被 很 好 的 排序 后 才 是 合理 的 。 在 Erwin et al.(1992b) 中 ,证 明 在 自 适 应 过 
程 的 排序 阶段 ( 即 在 初始 是 高 度 混乱 的 特征 映射 的 拓扑 排序 期 间 ) 自 组 织 映射 的 学 习 动 态 系统 
不 能 用 一 个 代价 孙 数 的 随机 梯度 下 降 描述 。 但 就 一 维 网 格 的 情况 来 说 ， 它 可 以 用 一 组 代价 函 
数 描述 ， 对 于 网 络 中 每 个 神经 元 ， 一 个 对 应 的 代价 函数 随 随机 梯度 下 降 独 立地 被 最 小 化 。 

关于 Kohonen 的 SOM 算法 , 令 人 惊奇 的 是 它 的 实现 如 此 简单 ， 但 在 一 般 设 置 下 分 析 它 的 
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性 质数 学 上 却 如 此 困难 。 虽 然 几 个 研究 者 使 用 相当 有 力 的 方法 来 分 析 它 ， 但 是 ， 他 们 仅 获 得 
有 限 的 应 用 性 结果 。 在 Cottrell et al.(1997) 中 给 出 关于 SOM 算法 理论 方面 的 结果 的 综述 。 尤 
其 最 近 由 Forte and Pagés( 1995, 1997) 得 出 的 结果 引 人 人 注目， 结果 表明 就 一 维 网 格 情况 而 言 ， 
可 严格 证 明 : 在 自 组 织 阶段 结束 后 ，SOM 算法 “几乎 确定 ”收敛 到 一 个 惟一 状态 。 这 个 重要 
的 结果 已 被 证 明 对 一 大 类 邻 域 函 数 成 立 。 然 而 ， 在 多 维 情况 下 尚未 得 到 同样 的 结论 。 

最 后 一 点 疑问 是 自然 的 。 既 然 自 组 织 特 征 映射 是 由 大 脑 皮 质 映 射 的 思想 所 激发 的 ， 很 自 
然 会 问 是 否 这 种 模型 可 以 实际 解释 皮质 映射 的 形成 。Erwin et al. (1995) 进 行 了 这 项 研究 。 他 
们 发 现 自 组 织 特征 映射 可 以 解释 猕猴 初级 视觉 皮质 中 计算 映射 的 形成 。 这 项 研究 的 输入 空间 
的 维 数 是 5 AE. 两 维 为 视觉 空间 接收 域 的 位 置 ， 剩 下 的 三 维 代表 方向 优先 、 方 位 选择 和 视觉 
优势 。 皮 质 表面 被 分 成 小 块 ， 每 块 被 视 为 两 维 网 格 的 计算 单元 ( 即 人 工 神经 元 )。 在 一 定 假设 
下 ， 表 明 Hebb 学 习 导 致 空间 模式 的 定位 和 视觉 优势 与 在 猕猴 中 发 现 的 非常 相似 。 


注释 和 参考 文献 


[1] 图 9-1 的 两 个 特征 映射 模型 是 由 von der Malsburg(1973) 的 自 组 织 的 先驱 性 研究 所 激发 ， 
Malsburg 注意 到 视觉 皮质 的 模型 不 能 整体 被 基因 预先 确定 ; 相反 涉及 突 触 学 习 的 自 组 
织 过 程 可 能 导致 特征 敏感 的 皮质 细胞 的 局 部 排序 ， 但 是 在 von der Malsburg 的 模型 中 不 
能 取得 全 局 拓扑 序 ， 因 为 模型 使 用 固定 的 (很 小 的 ) 邻 域 ，von der Malsburg 的 计算 机 仿 
真 也 许 是 第 一 次 展示 自 组 织 。 

[2] Amari(1980) 在 某 种 程度 上 放松 对 后 突 触 神经 元 的 突 触 权 值 的 限制 。Amari 给 出 的 数据 
分 析 曾 明 由 自 组 织 形 成 的 皮质 映射 的 动态 稳定 性 。 

[3] Kohonen(1993,1997a) 讨 论 自 组 织 映 射 的 神经 生物 学 的 可 行 性 。 

[4] Grossberg(1969b) 在 神经 网 络 文献 中 第 一 次 引入 式 (9.3) 描 述 的 竞争 学 习 规 则 。 

[5] 在 Kohonen(1982) 导 出 的 SOM 算法 的 原始 形式 中 ， 拓 扑 邻 域 假定 为 有 固定 的 范围 。 令 
gd.; 表 示 在 邻 域 函数 内 获胜 神经 元 i 和 兴奋 神经 元 ; 的 侧 向 距离 ， 一 维 网 格 情形 的 拓扑 
邻 域 定义 为 

-上 -Ked;<K (1) 
, 0, 其 他 
其 中 2K 为 兴奋 神经 元 一 维 邻 域 的 总 长 度 。 与 神经 生物 学 考虑 相反 ， 式 (1) 描 述 的 模型 
意味 着 在 拓扑 邻 域内 所 有 神经 元 以 相同 的 速度 点 火 ， 且 这 些 神经 元 内 部 的 相互 作用 与 
它们 到 获胜 神经 元 的 侧 向 距离 无 关 。 

[6] Erwin et al.(1992b) 表 明 当 SOM 算法 利用 非 凸 的 邻 域 函数 时 会 出 现 亚 稳定 状态 ， 它 表示 
在 特征 映射 设置 中 的 拓扑 缺陷 。Gauss 函数 是 凸 的 而 矩形 函数 不 是 凸 函 数 。 一 个 宽 的 邻 
域 函数 ， 如 宽 Gauss 函数 ， 形 成 拓扑 排序 的 时 间 比 非 凸 邻 域 函数 (如 和 矩形 函数 ) 所 花 的 
时 间 短 ， 这 是 因为 没有 亚 稳 定 状态 。 

[7] 在 通信 和 信息 论 的 文献 中 ， 提 出 了 著名 的 标量 量化 的 早期 方法 ， 即 Lloyd 算法 。 这 个 算 
法 首先 由 Lloyd 在 Bell 实验 室 1957 年 未 发 表 的 报告 中 描述 (Lloyd,1957) ， 很 久 以 后 才 发 
#2 (Lloyd, 1982). Lloyd 算法 有 时 也 称 为 “最 大 量化 器 "。 用 于 向 量 量化 的 广义 Lloyd 算法 
(generalized Lloyd algorithm, GLA) 是 Lloyd 算法 的 直接 推广 。 广 义 Lloyd 算法 在 McQueen 
(1967) 将 其 作为 统计 聚 类 的 工具 之 后 有 时 称 为 -均值 算法 。 在 Linde et al. (1980) 之 后 








477 























346 BOF 





的 数据 压缩 文献 中 它 有 时 也 称 为 LBG 算法 。Lloyd 算法 及 广义 Lloyd 算法 的 历史 评述 可 
参看 Gersho and Gray( 1992). 

[8] ”Kohonen(1993) 给 出 的 实验 结果 表明 ，SOM 算法 的 集中 方式 比 它 的 在 线 方式 快 。 但 是 使 
用 集中 方式 时 SOM 算法 失去 自 适应 能 力 。 

[9] 自 组 织 映射 的 拓扑 性 质 可 由 不 同方 法 定量 评价 。 一 种 这 样 的 定量 度量 称 为 地 形 图 产品 
(topographic product), ， 它 在 Bauer and Pawelzik(1992) 中 描述 ， 它 可 用 于 比较 属于 不 同 维 
数 的 不 同 特征 映射 的 真实 行为 ， 但 是 只 有 当 网 格 维 数 和 输入 空间 维 数 匹配 这 种 度量 才 
是 量化 的 。 

[10] SOM 算法 无 能 力 提供 输入 数据 的 固有 分 布 的 可 信 表 示 ， 这 一 点 促使 对 算法 的 修正 和 真 
实 表 示 输 入 的 新 自 组 织 算 法 的 发 展 。 

在 文献 中 有 两 类 SOM 算法 修正 的 报导 。 

(站 修改 竞争 过 程 。DeSieno(1988) 在 网 格 中 用 记忆 形式 跟踪 单个 神经 元 累计 激活 量 。 具 
体 地 ， 添 加 “良心 ”机 制 影响 SOM 算法 的 竞争 过 程 。 这 样 做 使 得 每 个 神经 元 不 管 它 在 
网 格 中 的 位 置 如 何 都 有 机 会 以 按 近 于 理想 值 1 的 概率 获胜 ， 其 中 1 为 总 的 神经 元 
数 。 习 题 9.8 给 出 具有 良心 机 制 的 SOM 算法 描述 。 

(这 修改 自 适应 过 程 。 在 这 第 二 种 方法 中 ， 对 用 于 调整 邻 域 函数 内 每 个 神经 元 权 值 向 量 

的 更 新 规则 进行 修改 ， 控 制 特征 映射 的 放大 性 质 。 在 Bauer et al，(1996) 中 ， 表 明 通 

过 对 更 新 规则 添加 可 调 步 长 参数 ， 可 以 为 特征 映射 提供 输入 数据 的 可 信和 表示 。Lin 

et al.(1997) 遵 循 相似 的 途径 引入 SOM 算法 的 两 种 修改 ; 

修改 更 新 规则 ， 抽 取 输 入 向 量 x 和 问题 中 神经 元 j 的 权 值 向 量 w, 的 直接 依赖 性 。 

。 利用 为 可 分 输入 分 布 特别 设计 的 等 变化 (equivariant) 痢 分 替代 Voronoi FZ}. 

这 第 二 种 修改 使 得 SOM 算法 能 进行 盲 源 分 离 。( 盲 源 分 离 在 第 1 章 有 简单 讨论 ， 在 
第 10 章 作 详 细 讨 论 。) 

所 提 到 的 修改 建立 在 标准 SOM 算法 的 这 种 或 那 种 形式 上 。Linsker(1989b) 采 用 一 种 完全 

不 同方 法 。 具 体 地 ， 利 用 最 大 化 输出 信和 号 和 带 加 性 噪声 的 输入 信号 之 间 的 互信 息 的 方 

法 ， 导 出 用 于 地 形 图 映射 形成 的 全 局 学 习 规 则 。( 植 根 于 Shannon 信息 论 的 互信 息 的 定 

义 在 第 10 章 讨论 。)Linsker 的 模型 产生 与 输入 分 布 精确 匹配 的 神经 元 分 布 。 利 用 信息 论 

的 方法 以 自 组 织 方式 处 理 地 形 图 映射 形成 也 在 Van Hulle(1996,1997) 中 讨论 。 

[11] SOM 算法 和 主 曲 线 之 间 的 关系 在 Ritter(1992) 以 及 Cherkassky and Mulier(1995) 讨 论 。 寻 
找 主 曲 线 的 算法 分 为 两 步 (Hastie and Stuetzl, 1989) : 

1. 投影。 对 每 个 数据 点 寻找 在 曲线 上 的 最 近 投 影 或 最 接近 点 。 

2. 条 件 期 望 。 应 用 散 列 图 沿 曲线 长 度 平滑 投影 值 。 推 荐 的 程序 是 从 大 范围 开始 平滑 然 
后 逐渐 减少 。 

这 两 步 和 向 量 量化 及 SOM 算法 所 进行 的 邻 域 退 火 相 似 。 

[12] 1986 年 Kohonen 提出 了 学 习 向 量 量 化 的 思想 ，Kohonen(1990b, 1997a) 描述 这 个 算法 的 3 
种 形式 。 在 9.7 节 讨 论 的 算法 形式 是 学 习 向 量 量化 的 第 一 种 ，Kohonen 称 之 为 LVQ1。 
学 习 向 量 量化 算法 是 随机 通 近 算法 。Baras and La Vigna(1990) 用 第 8 章 叙 述 的 常 微 分 方 
程 (ODE) 方 法 讨论 这 个 算法 的 收敛 性 质 。 
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习题 
SOM 算法 


9.1 函数 g(”) 表 示 响 应 y; 的 非 线性 函数 ， 它 如 同 在 (9.9) 中 那样 用 于 SOM 算法 。 如 
R g(y) 的 Taylor 展示 的 常数 项 不 为 零 ， 讨 论 这 会 产生 什么 结果 ? 
9.2 假设 x(r) 为 图 9-6 模型 的 噪声 vy 的 光滑 函数 ， 利 用 式 (9.9 ) 的 失真 度量 的 Taylor 
ERF, 确定 品 声 模型 x(v) 导 致 的 曲率 项 。 
9.3 有 时 说 SOM 算法 保持 输入 空间 中 存在 的 拓扑 关系 。 严 格 地 说 ， 这 种 性 质 只 有 输入 
空间 的 维 数 与 神经 元 网 格 的 维 数 相等 或 再 低 时 才能 保证 。 讨 论 这 个 陈述 的 正确 性 。 
9.4 一 般 说 基于 竞争 学 习 的 SOM 算法 对 硬件 故障 不 具有 容错 性 ， 但 是 算法 对 输入 的 小 
的 扰动 引起 输出 从 获胜 神经 元 跳 到 相 邻 的 神经 元 具有 容错 性 。 讨 论 这 两 个 陈述 的 含义 。 
9.5 考虑 由 (9.23) 表 示 的 SOM 算法 的 离散 形式 获得 的 集中 方式 ， 表 示 为 
D rix 
ms DI. 
证 明 SOM 算法 的 这 种 形式 可 以 表示 成 和 Nadaraya-Watson 回归 估计 器 相似 的 形式 (Cherkassky 
and Mulier, 1995); 这 个 估计 器 在 第 5 章 讨 论 。 
学 习 向 量 量化 
9.6 在 本 题 中 考虑 9.7 节 的 学 习 向 量 量化 算法 的 优化 形式 (Kohonen, 1997a)。 我 们 希望 
调整 在 不 同时 间 对 Voronoi 向 量 所 做 的 修正 效果 使 得 参照 学 习 周 期 结束 时 有 相同 影响 。 
(a) 首 先 ， 证 明 式 (9.30) 和 (9.31) 可 和 集成 为 一 个 等 式 


w.(n +1) = (1-s,a,)w.(n) + s,a,x(n) 





J = 1,2,°°,2 


其 中 
，- 全 若 分 类 正确 
" -1 若 分 类 错误 
(b) 因 此 , Æ a, = (1- saa 1 成立, 证明 习 题 开始 描述 的 最 优 准 则 满足 ， 这 样 学 习 常 
Bo, 的 最 优 值 为 
an = 1 + sas 

9.7 第 8 章 讨论 的 最 大 特征 滤波 器 和 自 组 织 特征 映射 的 更 新 规则 都 利用 Hebb 学 习 假设 
的 修正 。 比 较 这 两 个 修正 ,说 明 它们 的 不 同和 相似 点 。 

9.8 Ree SOM 算法 的 修正 ， 它 迫使 密度 匹配 是 精确 的 匹配 (DeSieno, 1988 )。 在 
229-4 小结 的 良心 算法 中 ,每 个 神经 元 保存 它 竞争 获胜 的 次 数 ( 即 它 的 突 触 权 值 向 量 在 
Euclid 距离 下 成 为 距离 输入 向 量 最 近 的 神经 元 的 次 数 )。 这 里 使 用 的 概念 ， 就 是 如 果 一 个 神 
经 元 获胜 太 频 繁 ， 它 “感到 有 罪 ” 从 而 退出 竞争 。 

为 了 研究 利用 良心 算法 在 密度 匹配 上 产生 的 改善 ， 考 虑 由 20 个 神经 元 组 成 的 一 维 网 格 
( 即 线性 陈列 ) 利 用 图 9-19 画 出 的 线性 输入 密度 训练 它 。 

(a) 利 用 计算 机 仿真 比较 由 良心 算法 和 SOM 算法 产生 的 密度 匹配 ， 对 SOM 算法 使 用 
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=0.005 而 良心 算法 使 用 B=0.0001, C=1.0 # 7=0.05. 
(b) 作 为 这 个 比较 的 参考 框架 ,包括 输入 密度 的 “精确 ”匹配 。 
[480] 讨论 你 的 计算 机 仿真 结果 。 





表 9-4 良心 算法 小 结 





1. 寻找 和 输入 向 量 x 最 近 的 突 触 向 量 w: 
lx- wl = miall x- w lj = 1,2,,N > 
2. 保持 一 轮 神经 元 竞争 获胜 的 总 时 间 部 分 pj: 
PP = pit + Bly; - př) 
其 中 0<B< <1 


在 算法 开始 时 ，p 急 始 化 为 零 
3. 利用 良心 机 制 


人 车 神经 元 j 为 获胜 神经 元 
yy = 0 其 他 


Ix-w;,l = min( | x — w; ll ~ 8) 
寻找 新 的 获胜 神经 元 ， 其 中 b; 是 为 了 修改 竞争 而 引信 的 偏 置 项 ; 它 定义 为 
= Cy) 
其 中 C 为 偏 置 因子 而 w 为 网 络 中 神经 元 的 总 数 。 
4. 更 新 获胜 神经 元 的 突 触 权 值 向 量 ， 
w = wid + n(x - wilt) 
其 中 1 为 通常 在 SOM 算法 中 使 用 的 学 习 率 参数 。 


计算 机 实验 
9.9 在 这 个 试验 中 我 们 用 计算 机 仿真 研究 SOM 算法 应 用 于 具有 二 维 输入 的 一 维 网 格 。 


网 格 由 65 个 神经 元 组 成 ， 输 入 由 图 9-20 所 示 的 三 角形 内 均匀 分 布 的 随机 点 构成 。 计 算 由 
SOM 算法 在 0，20，100，1000，10 000 和 25 000 次 迭代 后 产生 的 映射 。 





2.0 
X 
0.0 x 
-1.0 Xl 1.0 0 1 
图 9-19 图 9-20 
9.10 考虑 一 个 用 三 维 输入 分 布 训练 的 二 维 神经 元 网 格 ， 网 格 由 10 x 10 神经 元 构成 。 
(a) 在 小 区 域 


{(0 < xı < 1),(0 < x < 1),(0 < x3 < 0.2)} 
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内 输入 是 一 致 分 布 的 。 利 用 SOM 算法 计算 输入 空间 在 50，1 000 和 10 000 KRAE 
代 后 的 二 维 投影 。 
(b) 当 输入 在 一 个 更 大 的 区 域 
IO < x; <1),0< x, < 1),(0 < x < 0.4)} 
内 均匀 分 布 时 重复 你 的 计算 。 
(c) 当 输入 在 立方 体 
[O< xi < 1),0 < x, <1), < x < 1)} 
内 均匀 分 布 时 再 一 次 重复 你 的 计算 。 
讨论 你 的 计算 机 仿真 结果 的 含义 。 

9.11 Æ SOM 算法 应 用 中 经 常 出 现 的 问题 是 不 能 形成 拓扑 排序 而 产生 “ 折 释 ”映射 。 当 
人 允许 邻 域 体积 衰减 太 快 时 就 会 发 生 这 个 问题 。 折 符 映 射 的 产生 可 以 看 作 拓 扑 排序 过 程 形成 某 
种 形式 的 “局 部 最 小 ”。 

为 了 研究 这 个 现象 ， 考 虑 一 个 10 x 20 神经 元 的 二 维 网 格 ， 用 在 正方 形 |(-1<xi<+ 
1), (-l<m< +1)1 内 均匀 分 布 的 二 维 输入 训练 。 计 算 由 SOM 算法 产生 的 映射 ， 人 允许 获胜 
神经 元 周围 的 令 域 函数 比 正常 使 用 的 衰减 快 得 多 。 你 可 能 需要 重复 几 次 试验 才能 看 到 排序 过 
程 的 失败 。 

9.12 SOM 算法 的 拓扑 排序 性 质 可 以 用 于 形成 高 维 输入 空间 的 一 种 抽象 的 二 维 表示 形 
式 。 为 了 研究 这 种 表示 形式 ， 考 虑 由 10 x 10 神经 元 组 成 的 二 维 网 格 ， 它 的 训练 输入 空间 由 8 
维 空间 的 4 个 Gauss ZE, C, €, AIC, 构成 ， 它 们 的 中 心 位 置 分 别 为 (0,0,0,…,0)，(4,0， 
0,…,0),，(4,4,0,…,0) 和 (0,4,0,…,0)。 计 算 由 SOM 算法 产生 的 映射 ， 在 映射 中 每 个 神经 
元 的 类 别 和 在 该 神经 元 周围 输入 点 中 具有 最 多 输入 点 的 类 别 相同 。 

9.13 表 9-5 给 出 重 正 规 化 SOM 算法 小 结 ; 9.3 节 给 出 算法 的 简要 描述 。 比 较 常 规 的 和 
重 正规 化 的 SOM 算法 ， 注 意 以 下 两 个 问题 : 

1. 算法 实现 所 涉及 的 编码 复杂 性 。 

2. 训练 花费 的 计算 机 时 间 。 


表 9-5 重 正规 化 训练 算法 小 结 ( 一 维 的 形式 ) 


en 


-初始 化 。 置 码 字 向 量 的 数目 为 一 小 整数 (例如 ， 为 简单 起 见 使 用 2 或 对 所 求 问题 更 具 代表 性 的 其 他 数目 )。 从 训练 
集中 随机 选择 相应 数目 的 训练 向 量 初始 化 它们 的 位 置 。 

. 选择 一 个 输入 向 重 。 从 训练 集中 随机 选择 一 个 输入 向 量 。 

. 输入 向 量 编 码 。 确 定 获胜 码 字 向 量 ( 即 获胜 神经 元 的 突 触 权 值 向 量 )。 为 了 做 到 这 一 点 ， 在 需要 时 使 用 “最 近邻 或 
“最 小 失真 "编码 规定 。 

. 码 书 更 新 。 执 行 通常 的 “获胜 者 和 它 的 拓扑 邻 域 "更 新 。 你 会 发 现 保持 学 习 率 参数 ?固定 (如 0.125) 就 足够 了 。 例 如 
更 新 获胜 神经 元 使 用 ?而 它 的 最 近邻 使 用 2。 

. 码 书 分 天 了。 继续 码 书 更 新 (第 4 步 )， 每 次 使 用 随机 训练 集中 挑选 的 新 输入 向 量 直到 码 书 更 新 的 次 数 是 码 字 向 量 
数目 的 10 - 30 倍 。 这 时 码 书 大 概 已 经 稳定 ， 应 该 进行 码 书 分 裂 。 为 做 到 这 一 点 你 既 可 以 采用 你 所 有 的 码 字 向 量 的 
Peano 串 ， 且 对 它们 的 位 置 进行 插值 以 产生 对 Peano 串 的 更 小 粒度 的 逼近 ; 也 可 以 简单 对 每 两 个 已 有 的 码 字 向 量 连 
线 添加 另外 码 字 向 量 。 

. 吝 练 完成 。 继 续 进行 码 书 更 新 和 码 书 分 裂 直 到 码 字 向 量 总 数 达 到 某 一 预定 值 (如 100)， 这 时 整个 训练 结束 。 


w N 


A 


wa 


an 


O 码 书 分 裂 近似 在 每 一 回合 时 加 倍 码 字 向 量 的 数目 ， 所 以 达到 任何 预定 的 码 字数 目 无 需 花费 许多 的 回合 。 
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说 明 这 两 种 算法 的 比较 ， 利 用 从 一 个 正方 形 内 的 均匀 分 布 中 抽取 的 数据 ， 且 按照 下 列 两 
个 网 络 配置 : 

(a)257 个 神经 元 的 一 维 网 格 

(b)2094 个 神经 元 的 一 维 网 格 
在 这 两 种 情形 都 以 2 个 码 字 向 量 开始 。 

9.14 考虑 图 9-21 所 示 的 信号 空间 图 对 应 的 MM 行 冲击 幅度 调制 ( M-ary pulse-amplitude 
modulation, PAM), M = 8.0。 信 号 点 对 应 于 Gray 编码 数据 块 。 每 个 信号 点 由 具有 合适 幅度 大 


小 的 矩形 冲击 信号 表示 : 
; (1) =+ .5 _3 + 1 
P ~= 9° * 9° 9? 2? 


其 中 了 为 信号 区 间 。 在 接收 器 输入 ， 对 具有 变化 信 噪 比 (signal-to-noise ratio, SNR) 的 传输 信号 
添加 零 均 值 的 Gauss 白 噪声 。SNR 定义 为 传输 信号 能 量 平均 和 噪声 能 量 平均 的 比值 。 
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图 9-21 


(a) 利 用 随机 二 值 序列 作为 发 送 器 输入 ,产生 表示 SNR = 10,20,30 分 贝 接收 信号 的 数据 。 
(b) 对 这 些 SNR， 建 立 自 组 织 特征 映射 。 你 可 使 用 的 典型 值 为 : 
。 对 接受 信号 以 8 倍 信号 率 采 样 获 得 的 8 个 元 素 构成 输入 向 量 ( 即 每 个 信号 区 间 8 
个 样本 )。 假 设 不 知道 时 间 信 息 。 
。 64 个 神经 元 的 一 维 网 格 ( 即 输入 向 量 大 小 的 8 信 )。 
(c) 对 三 个 SNR 显示 特征 映射 由 此 表示 SOM 算法 的 拓扑 排序 性 质 。 





第 10 章 ”信息论 模型 


10.1 简介 


Claude Shannon 在 1948 年 发 表 的 经 典 论 文中 ， 为 信息 论 打 下 了 基础 。Shannon 在 信息 论 方 
面 的 开创 性 工作 中 和 其 他 的 研究 工作 者 对 它 的 补充 ， 是 对 电子 工程 师 设 计 高 效 可 靠 通 信 系统 
的 需求 的 直接 回应 。 无 论 它 的 实际 起 源 是 什么 ， 如 我 们 今天 所 知道 的 信息 论 正 是 关于 通信 过 
程 本 质 的 深刻 数学 理论 。 这 个 理论 提供 一 个 对 根本 问题 研究 的 总 体 框 架 ， 例如， 信息 表示 的 
效率 以 及 一 个 通信 信道 可 靠 信息 传输 的 极限 问题 。 而 且 该 理论 包括 很 多 有 力 的 定理 用 以 计算 
最 佳 表 示 和 信和 号 所 携带 信息 的 传输 的 理想 界限 。 这 些 界 限 非常 重要 ， 因 为 它们 为 提高 信息 处 
理 系统 的 设计 提供 了 标准 。 

这 一 章 我 们 的 主要 目的 是 讨论 以 一 种 原则 性 方式 导致 自 组 织 的 信息 论 模 型 。 在 这 个 背 
景 下 ， 特 别 值得 注意 的 模型 是 由 Linsker 于 1988 年 提出 的 最 大 互信 息 原则 (maximum mutual 
information principle)!” , 该 原则 表明 ， 多 层 神 经 网 络 的 突 触 联结 以 这 样 一 种 方式 进行 : 在 
网 络 的 每 个 处 理 阶 段 ， 当 进行 信号 变换 时 ， 为 保留 的 信息 量 达到 最 大 ， 要 遵从 一 定 的 约 
束 条 件 。 利 用 信息 论 来 解释 人 们 的 感知 过 程 并 不 是 什么 新 的 想法 8 。 例 如 ， 我 们 可 能 注意 
到 1954 年 Atmeave 写 的 一 篇 早期 论文 ， 其 中 提出 了 关于 感知 系统 的 下 面 信息 理论 性 作 
用 : 

感知 机 制 的 一 个 主要 功能 是 减少 刺激 的 宛 余 ， 以 一 种 比 它 冲击 接受 器 的 形式 更 经 济 的 方 
式 对 信息 进行 描述 或 编码 。 

在 Attneave 的 论文 背后 的 主要 思想 在 于 认识 到 为 减少 元 余 对 场景 数据 编码 和 确认 场景 中 
特定 特征 是 相关 的 。 这 种 重要 认识 和 在 Craik(1943) 描 述 的 关于 人 脑 的 观点 相关 ， 在 该 论文 
中 构造 一 个 外 部 世界 的 模型 以 便 结 合 现实 的 规则 和 约束 。 


本 章 的 组 织 


本 章 主 体 组 织 成 两 部 分 。 第 一 部 分 由 10.2 节 至 10.5 节 组 成 ， 提 供 对 信息 论 基 本 原理 的 
回顾 。 在 10.2 节 讨 论 作 为 信息 的 一 个 定量 度量 的 炉 的 概念 ， 这 自然 导致 10.3 节 讨 论 的 最 大 
RW, Ak, RINE 10.4 节 讨论 互信 息 的 概念 和 它 的 性 质 ， 随 后 在 10.5 节 讨 论 Kullback- 
Leibler 散 度 。 

本 章 第 二 部 分 由 10.6 节 至 10.14 节 组 成 ， 处 理 用 于 自 组 织 系统 的 信息 论 模 型 。10.6 节 
提出 把 互信 息 量 作为 一 个 最 优化 的 目标 函数 。 最 大 互信 息 原则 在 10.7 节 人 介绍， 随后 讨论 该 
原则 与 10.8 节 中 的 宛 余 减 少 原则 之 间 的 关系 。10.9 节 与 10.10 节 中 处 理 最 大 互信 息 原则 适 
应 于 图 像 处 理 中 不 同 应 用 的 两 个 变 体 。10.11 节 到 10.14 节 提 出 三 种 不 同 的 方法 解决 言 源 分 
离 问 题 。 

在 10.15 节 中 提出 一 些 最 后 的 评论 结束 本 章 。 
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10.2 % 


遵循 概率 论 中 通常 使 用 的 术语 ， 我 们 以 大 写字 母 表示 随机 变量 ， 以 相应 的 小 写字 母 表示 
随机 变量 的 值 。 
对 于 一 个 随机 变量 X， 它 的 每 一 个 实现 (出 现 ) 可 看 作 一 个 消息 。 严 格 地 说 ， 如 果 随 机 变 
量 X 的 幅度 值 是 连续 的 ， 则 它 带 有 无 穷 的 信息 。 但 是 ， 从 物理 和 生物 的 角度 来 看 ， 我 们 认 
识 到 讨论 具有 无 限 精 度 的 幅度 度量 的 信息 是 没有 意义 的 ， 这 就 是 说 可 以 把 的 值 一 致 量化 
到 有 限 的 离散 水 平 。 这 样 我 们 可 以 把 式 看 成 是 离散 的 随机 变量 ， 其 模型 为 
X= |xlk=0,+1,..…,+ kK (10.1) 
其 中 x 是 一 个 离散 的 数值 且 (2K + 1) 是 总 的 离散 水 平 。 离 散 水 平 之 间 的 间隔 5x 假设 非常 
小 ， 能 够 以 足够 的 精度 来 描述 我 们 感 兴趣 的 变量 。 当 然 我 们 能 够 接近 连续 的 极限 ， 只 要 5x 
0 且 KK 趋 于 无 穷 ， 在 这 种 情况 下 就 得 到 连续 变量 而 且 ( 在 本 节 后 面部 分 我 们 将 看 到 ) 求 和 变 
为 完善 模型 ， 让 事件 X = x, 以 概率 
pe = P(X = x) (10.2) 
发 生 ， 其 中 要 求 


0o<m<1 和 >p -1 (10.3) 


假如 事件 X = x, 发 生 的 概率 p; = 1， 因此 要 求 对 所 有 ixk Ap, = 0。 在 这 种 情况 下 ， 如 
RE X = x 发 生 就 没有 什么 “惊奇 "的 了 ， 并 且 不 传达 任何 “信息 ”， 因 为 我 们 知道 消息 必 
须 是 什么 。 在 另 一 种 情况 下 ， 如 果 各 种 离散 水 平 发 生 的 概率 不 同 ， 特 别 地 概率 p 很 小 ， 那 
L5 X Riis, 而 不 是 具有 更 高 概率 p, 的 离散 水 平 x, (i 上 ) 时 ， 这 就 有 更 大 的 “惊奇 "和 有 
“信息 ”了 。 因 此 词 “不 确定 "、“ 惊 奇 "和 “信息 ”是 相关 的 。 在 X= x 发 生 之 前 ， 有 一 定 的 不 
HE. E X= x 发 生 之 后 ， 有 一 定 惊奇 。 在 X-a 发 生 之 后 ， 信 息 量 增加 了 。 这 里 的 三 
个 量 很 显然 是 一 样 的 ， 而 且 信 息 量 与 事件 发 生 的 概率 成 反比 。 

我 们 定义 观察 到 具有 概率 p, 的 事件 X= x, 后 所 获得 的 信息 增益 量 为 对 数 函 数 


I(x) = loe( =) = — logp, (10.4) 


其 中 对 数 函 数 的 底 是 任意 的 。 当 以 自然 对 数 为 底 时 ， 信 息 的 单位 是 奈 特 (nat)， 当 以 2 为 底 
时 ， 单 位 是 比特 (bib)。 在 任何 情况 下 以 式 (10.4) 定 义 的 信息 量 都 有 以 下 的 性 质 : 


1. I(x,)=0, 4 p,=1 (10.5) 

显然 ， 如 果 我 们 绝对 肯定 将 发 生 的 事件 ， 则 当 其 发 生 时 就 没有 获得 信息 。 

2. I(x,)20, 4O<p,<1 (10.6) 

也 就 是 说 ， 当 事件 了 = 0, 发 生 时 ， 或 提供 一 些 信息 或 不 提供 信息 ， 但 不 会 导致 信息 损 
失 。 

3, I(x,) >ICx;), 4 p <p; (10.7) 


也 就 是 说 ， 小 概率 事件 发 生 时 携带 的 信息 量 比 大 概率 事件 发 生 时 携带 的 信息 量 多 。 
信息 量 I(x, ) 也 是 一 个 具有 概率 p 的 离散 随机 变量 。7(x; ) 在 全 部 2K + 1 个 离散 数值 上 
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的 平均 值 定义 为 
H(X) = El l(x,)] = Spl) =- 之 Ptlogp: (10.8) 
量 H(X) 叫 做 一 个 可 取 有 限 离散 值 的 随机 变量 X WA; 之 所 以 称 为 炉 是 因为 (10.8) 给 出 的 定 
义 与 统计 热力 学 中 的 炳 非常 相似 中 。 炉 五 (X) 表 示 每 一 个 消息 所 携带 的 信息 的 平均 量 。 注 意 
在 H(X) 中 不 是 H(X) 的 变量 ,而 是 一 个 随机 交 量 的 标记 。 同 时 注意 到 在 式 (10.8) 中 我 们 
取 0 log 0 为 0。 
Ri H(X) 被 限定 如 下 : 
0 < H(X) < log(2K +1) (10.9) 
其 中 (2K+ 1) 是 总 的 离散 水 平 的 数 日 。 进 一 步 ， 我 们 作 如 下 说 明 : 
1.H(X) =0 当 且 仅 当 对 于 某 一 个 概率 p; =1 时， 而 集合 中 其 他 的 概率 为 0; AIK 
下 界 不 对 应 不 确定 性 。 
2.H(X) = log, (2K +1) 4HM4URAM k, p, = 1/(2K +1)( 即 所 有 的 离散 值 的 概率 相 
等 ); 这 个 上 界 对 应 最 大 不 确定 性 。 
第 二 性 质 的 证 明 要 用 到 下 面 的 引 理 (Gray,1990): 


Dpuog(2) =0 (10.10) 
当 且 仅 当 对 所 有 的 上，ps = gs 都 成 立时 ， 上 面 的 等 式 成 立 。 
这 个 引 理 所 用 的 量 是 如 此 的 重要 ， 以 致 我 们 停 下 来 以 适宜 在 随机 系统 的 研究 中 使 用 的 形 
式 描述 它 。 令 py (x) Al gx (x) 表 示 一 个 随机 变量 忒 在 两 个 操作 条 件 下 处 于 状态 x 的 概率 。 两 
个 概率 质量 函数 py (x) 和 gy (x) 1 40 8 Kullback-Leibler 散 度 ( 距 离 ) 定 义 如 下 (Kullback， 
1968 , Gray , 1990; Cover and Thomas, 1991) : 


Dig = By px Co )og| 2655) (10.11) 


其 中 求 和 是 对 所 有 的 可 能 的 系统 状态 ( 即 离散 随机 变量 X 的 字母 表 & ) 。 概 率 质量 函数 gy (x) 
起 着 参考 度量 的 作用 。 


ERENER 


信息 论 概 念 的 讨论 现在 只 涉及 它们 的 幅度 离散 的 随机 变量 总 体 。 现 在 我 们 将 这 些 概念 中 
的 一 些 扩展 到 连续 随机 变量 。 

假设 连续 随机 变量 X RRR («), SRE SHE RW, RN 
作 如 下 定义 : 





h(X) =- | fCx)logfe (x) de =~ Ellogf; (x) ] (10.12) 


我 们 将 h(X) 定 义 为 X WHAI (differential entropy), 5—ARA ERAT, RINI 
认识 到 虽然 h(X) 是 一 个 有 用 的 数学 量 ， 但 它 在 任何 意义 下 也 不 是 一 种 的 随机 性 度量 。 
我 们 对 使 用 (10.12) 的 合理 性 可 以 解释 如 下 。 开 始 将 连续 随机 变量 X 看 成 离散 随机 变量 
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的 极限 形式 , 设 x, = kòs, HP k=0, +1, +2, °°, Hdx FO HEM, EMILE 
E X BUA e, x, + 5x] 之 间 的 概率 为 及 (x)5x。 所 以 ， 当 de 趋 于 0 时 连续 随机 变量 大 的 
普通 炉 可 以 写成 如 下 极限 的 形式 : 


H(X)=- lim DY fC)3xlog(fi (4 )82) 


= — lim x (Xi) log fy (2, ) )ðx + logdx (XE) Ox 
lim[ D fe Ca) logh 1)) 3x + logd= D3 fr. )82] (10.13) 


=- | frlx)logfr (x) dx - limlog3z| f(x) dx 
= A(X) - limlogdx 
其 中 最 后 一 行 用 到 了 式 (10.12) 以 及 在 概率 密度 函数 下 方 的 总 面积 为 1 这 个 事实 。 当 5x 趋 于 
OR, -logòs 趋 于 无 穷 大 。 这 意味 着 连续 随机 变量 的 焙 是 无 穷 大 。 在 直觉 上， 我 们 也 期 望 
这 是 真 的 ， 因 为 随机 变量 可 以 在 ( -  , % ) 上 任意 取 值 ， 和 随机 变量 相关 联 的 不 确定 性 是 无 
穷 阶 的 。 为 了 避免 出 现 项 - log8x 所 带 来 的 问题 ， 我 们 采用 疡 (T) 作 为 描述 随机 变量 X 的 微 
DR, T- log5x 作为 参考 。 而 且 , hTRAIL, 我们 感 兴趣 
的 实际 上 是 具有 相同 参考 的 两 个 粹 项 的 差 ， 信 息 将 和 相应 微分 人 项 之 间 的 差 是 一 样 的 。 所 以 
我 们 完全 有 理由 采用 在 (10.13) 所 定义 的 项 h(X) 作 为 连续 随机 变量 AE. 
当 有 一 个 由 n EIEE X, X, e X 组 成 的 随机 连续 向 量 X, RIE X H 
GRIER n ERD 
h(X) =- [x og (x) dx = — E[logf,(x)] (10.14) 


其 中 fx (x) 2 X WKAR. 
例 10.1 均匀 分 布 “考虑 在 [0,1j 区 间 上 均匀 分 布 的 随机 变量 X, RAH 


fx) = | O<x<el 


0 ”其 他 
应 用 (10.12)， 我 们 得 到 Xx RMA 
h(X) =--| 1 + logl dx =-| 1+ Odx = 0 


PRA X EA 0. E 
WAATEA 
KAR (10.12) 24 HAR 上 (TD) 的 定义 中 容易 看 出 平移 不 会 改变 它 的 值 ， 即 
h(X +c) = h(X) (10.15) 
其 中 c 为 常量 。 
h( 革 ) 男 一 个 有 用 的 性 质 是 
h(aX) = h(X) + log! a | (10.16) 


其 中 a 为 比例 系数 。 为 了 证 明 该 式 ， 我 们 首先 知道 概率 密度 函数 曲线 下 方 的 面积 是 1， 故 
| fy) = i fil =) (10.17) 
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接着 应 用 式 (10.12) ， 我 们 可 写成 
ACY) =- Ellogfy(y)] =- se( ti (2))] =- fioe >)] + log | a | 
[RA Y= aX 得 到 
h( aX) =- | f(x logy (x) dx + log ia | 


由 此 立刻 得 出 式 (10.16)。 
式 (10.16) 用 于 纯 量 的 随机 变量 ， 也 可 以 推广 用 于 随机 向 量 X 乘 以 矩阵 A 的 情况 如 
F: 
h(AX) = h(X) + log | det(A) | (10.18) 
其 中 det(A) 是 矩阵 A 的 行列 式 。 


10.3 mA 


假设 有 一 个 随机 系统 ， 已 知 一 组 状态 ， 但 不 知 其 概率 ， 而 且 我 们 知道 这 些 状态 的 概率 分 
布 的 一 些 限制 条 件 。 这 些 条 件 或 者 是 已 知 一 定 的 总 体 平均 值 ， 或 者 是 它们 的 一 些 界限 。 在 给 
定 关 于 模型 的 先 验 知识 的 条 件 下 ， 问 题 是 选择 一 个 在 某 种 意义 下 最 佳 的 概率 模型 。 我 们 经 常 
发 现 有 无 穷 多 种 模型 可 以 满足 条 件 。 应 该 选择 哪个 模型 呢 ? 

这 个 基本 问题 的 答案 基于 Jaynes(1957) 提 出 的 最 大 粹 原则 中 。 最 大 炳 原则 可 以 陈述 如 下 
(Jaynes, 1957, 1982) : 

当 根 据 不 完整 的 信息 作为 依据 进行 推断 时 ， 应 该 由 满足 分 布 限制 条 件 的 具有 最 大 粹 的 概 
率 分 布 推 得 。 

实际 上 ， 业 的 概念 在 概率 分 布 空间 定义 一 种 度量 ， 使 得 具有 较 高 入 的 分 布 比 其 他 的 分 布 
具有 更 大 的 值 。 

从 上 面 陈述 ， 很 明显 “最 大 业 问 题 " 是 一 个 约束 最 优化 问题 。 为 了 说 明 解 这 个 问题 的 步 
R, BERK 


A(X) = -| fC elope (x) dx 


对 所 有 随机 变量 X 的 概率 密度 函数 h(x)， 并 满足 以 下 约束 条 件 : 
L.fx(a) 30, FE x 的 支撑 集 之 外 等 式 成 立 


2.| filn)dx =1 


3.| fr(x)g(x) dr = a; MHF i = 1,2,…,m 
其 中 g(x) Ae x 的 一 个 函数 。 约 束 1 和 约束 2 描述 概率 密度 函数 的 基本 属性 ， 约 束 3 定 
义 变量 X 的 矩 ， 它 随 函 数 g(x) 的 表达 式 不 同 而 发 生变 化 。 实 际 上 ,约束 3 综合 随机 变量 X 
的 可 用 先 验 知识 。 为 了 解决 这 个 约束 最 优化 问题 ， 我 们 利用 Lagrange RTAS, HEERE 
标 函数 
IP = [7 [f(s)logf Cs) ufel) + Dga] de (10.19) 
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FUP Ag Ais An 是 Lagrange RF. NP BARPRROR fy (x AY, HERA 0, RAER 


- 1 = logfe(x) +% + D2 Ag: (x) = 0 
解 此 方程 得 

flx) = exp(—14+% + Saw (2) (10.20) 
TEX (10.20) 9 Lagrange 乘 子 根据 约束 条 件 2 和 3 选择 。 式 (10.20) 定 义 这 个 问题 的 最 大 灶 分 
的 例 10.2 一 维 Guas 分 布 ”假设 我 们 可 用 的 先 验 知识 为 随机 变量 X 的 均值 pp 和 方差 o 
根据 定义 ， 得 到 

| (x ~ u) f(x)dx = o = constant 


将 此 式 与 约束 条 件 3 作 比 较 ， 看 出 
& (x) = (x —p)’, al = 6 
所 以 应 用 (10.20) 可 得 
fr(x) = expl-1+XN+NOz -Ho2] 
注意 如 果 fr(x) 和 (x - o) fela) Xt oe 的 积分 是 收敛 的 ， 则 N 为 负数 。 将 此 等 式 代 人 约 东 条件 
2 和 3， 解 出 x 入 我 们 得 到 
1 





ro = 1- log(2x0), N=- 53 
所 以 希望 的 f(x) 的 分 布 形 式 为 
1 (x -uy 
fx (x) = Feo - =a (10.21) 


我 们 知道 这 是 一 个 均值 为 六 和 方差 为 o 的 Gaus 随机 变量 下 的 概率 密度 函数 。 这 样 的 随机 
变量 的 微分 焙 的 最 大 值 为 


h(X) = 3[1 + log(2no?) (10.22) 


对 这 个 例子 我 们 作 如 下 的 小 结 : 

1. 对 于 给 定 的 方差 中 ， 在 任意 的 随机 变量 中 Gauss 随机 变量 取得 微分 炳 的 最 大 值 。 也 就 
是 说 ， 如 果 是 一 个 Gauss 随机 变量 ， 了 是 其 他 具有 相同 均值 和 方差 的 随机 变量 ， 则 对 所 有 
的 了 

A(X) > ACY) 
只 有 当 互 与 了 相同 时 等 式 成 立 。 

2.Gauss MPLES X ARARA TX AzS X WAH). 

110.3 多 维 Gaus 分 布 在 这 第 二 个 例子 中 ,我 们 想 在 例 10.2 的 结果 基础 上 ， 建 立 
计算 多 维 Gauss 分 布 的 微分 粮 的 计算 公式 。 由 于 Gauss 分 布 的 粹 与 随机 变量 X 的 均值 无 关 ， 
为 简化 讨论 ， 我 们 可 以 仅 讨 论 具有 均值 为 0 的 随机 变量 义 。 这 样 久 的 二 阶 统 计 性 质 由 其 协 方 
ER ERE, CA X AARIKE, iE X 的 联合 概率 密度 函数 由 


1 1 re- 
f(x) = rd (~ 3 zx] (10.23) 
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25 HH (Wilks, 1962), JEP det(D) iÈ E WITIR A (10.14) EX X I. ARF (10.23) 
代入 (10.14)， 我 们 得 到 


h(X) = Sim + mlog(2x) + log | det(Z) | J l (10.24) 


这 包括 式 (10.22) 作 为 其 特例 。 按 最 大 人 炉 原 则 的 观点 ， 我 们 可 以 这 样 说 ， 对 于 给 定 的 一 个 协 
方差 矩阵 瑟 ， 在 所 有 守 均 值 随机 向 量 可 达到 的 微分 粹 中 ， 多 元 Gauss PHA ARAN, 
此 最 大 微分 炉 由 式 (10.24) 定 义 。 | 


10.4 互信 息 


在 设计 一 个 自 组 织 系 统 时 ， 根 本 的 目的 就 是 仅仅 根据 输入 模式 来 获得 一 个 学 习 算 法 ， 该 
算法 能 够 学 习 输入 和 输出 的 关系 。 在 这 个 背景 下 ， 由 于 互信 息 的 概念 有 很 多 好 的 性 质 ， 所 以 
非常 重要 。 为 了 以 后 的 讨论 ,假定 随机 系统 具有 输入 X 和 输出 Y， 而 且 X AY 只 允许 取 高 
散 的 值 ， 分 别 由 x Aly RR W HORR X 的 先 验 不 确定 性 。 那 么 ， 当 观测 到 Y 后 我 们 
如 何 度 量 对 X 的 不 确定 性 ?为 了 回答 此 问题 ,我 们 定义 在 给 定 YX HAH (Cry, 
1990; Cover & Thomas, 1991) 

H(X | Y) = H(X,Y) - H(Y) (10.25) 
具有 性 质 
O< H(X! Y) < H(X) (10.26) 
AAP HCXIY) RA AMM RARE YE, PX REM RAZARS, fe50(10.25) 
H(X,Y)EXMY DRS, H 


H(X,Y) =- >) >) p(x, y)logp( x,y) 


EX yEG 
定义 ， 其 中 p(x,y) 是 离散 随机 变量 XX 和 YY HKOMERESRK, MLAGRRENSAN 
字母 表 。 

HFR H(X) 表 示 在 没有 观测 系统 输出 前 我 们 对 系统 输入 的 不 确定 性 ， 条 件 粹 H(XIY) 
表示 在 观测 到 系统 输出 后 对 系统 输入 的 不 确定 性 ， 差 HX) - H(X17Y) 表 示 观 察 到 系统 输出 
之 后 我 们 对 系统 输入 的 不 确定 性 的 减少 。 这 个 量 就 叫做 随机 变量 X 和 了 之 间 的 互信 息 ， 由 
KX YRR, RINT SR” 

I(X;Y) = H(X) - H(X1 Y) 
-55 plx, y)og| Py) ) (10.27) 
EX yEG pl«)ply) 
EARN ME, AARNE 
H(X) = 1(X;X) 
两 个 离散 随机 变量 X AYERE ICX, Y) A a0 FER (Cover and Thomas, 1991; Gray, 
1990): 
.在 和 了 的 互信 息 具 有 对 称 性 ; 也 即 
I(Y;X) = I(X;Y) 
其 中 互信 息 (Y; 工 ) 表 示 观 察 系统 输入 王 ， 对 系统 输出 Y 的 不 确定 性 的 减少 ， 而 7(T; 了) 表 
示 观 测 系 统 输出 后 对 系统 输入 的 不 确定 性 的 减少 。 
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2. 卫 和 了 的 互信 息 总 是 非 负 的 ; 也 即 
I(X;Y)>=0 

实际 上 ， 这 个 性 质 说 明 ， 通 过 观测 系统 的 输出 Y， 平 均 说 来 我 们 不 可 能 丢失 信息 。 而 且 ， 当 
且 仅 当 输 入 和 输出 统计 独立 时 互信 息 为 0。 

SX FY 的 互信 息 也 可 以 用 YY HARTA 

I(X;Y) = ACY) - H(Y | X) (10.28) 

其 中 (YIX) 是 条 件 粹 。 式 (10.28) 的 右 端 表示 系统 输出 了 的 总 体 平均 传达 信息 减 去 我 们 知 
道 系 统 输 入 X 后 关于 了 的 总 体 平均 传达 信息 (外 ;了 )。 后 一 个 量 H(YIX) 传 达 关 于 处 理 噪声 
而 不 是 关于 系统 输入 4 的 信息 。 

图 10-1 用 一 个 可 视 化 的 图 来 解释 等 式 (10.27) 和 (10.28)。 系 统 的 输入 X 的 炉 有 H(X) 用 左 
边 的 圆 表 示 ， 输 出 了 的 炉 卫 (7) 用 右边 的 圆 表示，X 和 了 的 互信 息 用 图 中 的 两 圆 的 交集 表 
N o 


H(X, Y) 





HOXIY) 
\ 
\ 
se 

= 2 
H(X) H(Y) 

图 10-1 互信 息 (X; Y) Al H(X) mh H( Y) 的 关系 说 明 

连续 随机 变量 的 互信 息 


给 定 一 对 连续 的 随机 变量 1 和 Y， 类 似 式 (10.27)， 我 们 定义 随机 变量 X AY 的 互信 息 
为 





I(X;Y) = [ [pare og AE a 2) dx dy (10.29) 


JP fy (x,y) EX AY RARE OM, laly Be Vs y AX 的 条 件 概率 密度 函数 。 
注意 
fary) = fle) DA) 
所 以 我 们 也 可 以 写成 
I(X;Y) = PP ares roel FS) dx dy 
同 前 面 讨论 的 离散 随机 变量 类 似 ， 连 续 随机 变量 车 和 了 的 互信 息 有 如 下 的 性 质 : 
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I(X;Y) = h(X) ~ h(X1Y) 


= h(Y) ~h(Y1 X) (10.30) 
= h(X) + ACY) - ACX,Y) 

KY;X) = I(X;Y) (10.31) 
1(X;Y) =0 (10.32) 


参量 AX) X WOM, E h( 了 7) 一 样 。 参 量 ACXIY RAE VY NX MAAR, Ae 
积分 


ACXLY) =-| | farlasyloghy(x | y) dr dy (10.33) 


定义 。 参 量 h(Y1X) 是 给 定 X 时 了 的 条 件 微分 炳 ， 定义 与 (XIY) 类 似 。 参 量 h(X, 了 ) 是 X 
AY KURA o 

注意 式 (10.32) ， 只 有 在 随机 变量 X MY Kita oy. eae, X 
和 了 的 联合 概率 密度 函数 可 分 解 成 

Saxl asy) = fr(x)fr(y) (10.34) 
其 中 有 (x) 和 f(y) 分 别 是 XY 和 Y 的 边沿 概率 密度 函数 。 等 价 地 ， 我 们 写成 
flal y) = fr(x) 

这 就 是 说 了 的 结果 的 知识 完全 不 能 影响 X 的 分 布 。 将 其 代入 式 (10.29) 导 致 I(X;Y) =0。 

在 式 (10.29) 中 给 出 的 互信 息 适 用 于 纯 量 随 机 变量 X 和 了 YY。 这 个 定义 也 易于 扩展 至 随机 
向 量 XY, ARTS ICKY). Re, RTE I(X;Y 了 ) 为 多 重 积分 : 


Hx) = [7 ST Arpo AAS”) ax ay (10.35) 


互信 息 7(X;Y) 同 样 具有 与 式 (10.30) 至 式 (10.32) 的 关于 纯 量 随机 变量 性 质 平行 的 性 质 。 
10.5 Kullback-Leibler 散 度 


在 式 (10.11) 中 我 们 定义 离散 随机 变量 Kullback-Leibler 散 度 。 这 个 定义 也 可 扩展 到 随机 
问 量 的 一 般 情 况 。f (x) 和 gx(x) 表 示 m x 1 的 随机 向 量 外 的 两 个 不 同 的 概率 分 布 函数 ， 根 
据 式 (10.11)， 我 们 可 以 定义 (x) 和 gx(x) 的 Kullback-Leibler 散 度 为 (Kullback,1968; Shore and 
Johnson, 1980) 








Dro = | Ao 205) ax (10.36) 


Kullback-Leibler 散 庆 有 一 些 特 有 的 性 质 : 

1. 它 总 是 正 的 或 为 零 。 在 特殊 的 条 件 下 ， 当 fx (x) = gx(x) 时 ， 两 个 分 布 完 全 重合 ， 
Dy 正好 为 零 。 

2. 对 于 向 量 x 的 各 分 量 作 如 下 的 改变 ， 其 值 不 变 : 

。 各 分 量 依 序 置换 

。 乘 以 一 个 比例 系数 

。 单调 非 线性 变换 

一 对 向 量 六 ，Y 之 间 的 互信 息 I(X;Y 了 ) 用 Kullback-Leible 散 度 有 一 个 有 趣 的 解释 。 首 先 ， 
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我 们 注意 到 
fry(X,y) = fy(y | x)fx(x) (10.37) 


所 以 ， 可 以 将 式 (10.35) 改 写成 如 下 的 等 价 形式 : 
I(X;Y) = ES Arapi Povey) dx dy 
将 其 与 式 (10.36) 作 比较 。 我 们 立即 推 得 
I(X;Y) = Dy ing (10.38) 

总 的 来 说 ，X 和 立 之 间 的 互信 息 等 于 联合 概率 密度 函数 fx.y(x,y) 以 及 概率 密度 函数 fy (x 
fr(y) 的 乘积 的 Kullback-Leibler 散 度 。 

后 一 结果 的 特例 是 m x 1 的 随机 向 量 和 的 概率 密度 函数 fx(x) 和 它 的 m 个 边缘 概率 密度 
函数 的 Kullback-Leibler 散 度 。 令 fr (x) 表示 第 i PICK X, 的 边缘 概率 密度 函数 ， 由 


fr (a) = | Aaxt, i = 1,2,-+,m (10.39) 


EX, FP xO ENA x 中 除去 第 i 个 元 素 后 的 (m - 1) x 1 向 量 。fx (x) 和 析 因 分 布 
T; fx, Cx; ) 的 Kullback-Leibler 散 度 定义 为 





fx(x) 
Dig = [Aco Tlie o)” (10.40) 
也 可 以 写成 展开 形式 一 
Dr lig = [Feo f(x) dx - D| Alog (x) dx (10.41) 


按 定义 ， 式 (10.41) 右 边 第 一 个 积分 等 于 - ACK), EF AXE X RO, OW TT 
项 ， 我 们 首先 注意 到 
dx = dx” dx; 
因此 可 以 写成 
| fx (x)logfr (x) dx = | logy, (x) F(x) dx dx; (10.42) 
其 中 右 端 内 层 积分 是 对 (m - 1) x 1 ex? AD, 而 外 层 积 分 是 对 标量 x, 积分 。 但 从 
(10.39)， 我 们 发 现 内 层 积分 实际 上 等 于 边缘 概率 密度 函数 f(x;)。 由 此 可 以 将 (10.42) 重 写 
为 等 价 形式 
| faCOloghs, (xn)dx= | fy, (a logs, (x) de 
=-A(X;), i = 1,2,-+,m (10.43) 
SE CX, FESS i TIA AE BE PL fy C GP). BU HER (10.43) 412A 
式 (10.41)， 并 注意 式 (10.41) 中 的 第 一 个 积分 为 - A(X), BATHE (10.41) BY Kullback-Leibler 
散 度 化 简 为 
Dih =- A(X) + STACK) (10.44) 
这 个 公式 将 在 本 章 后 面 讨论 讶 源 分 离 问题 中 特别 有 用 。 
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Pythagoras 分 解 


下 面 我 们 考虑 概率 密度 函数 fx (x) A fy (x) ZIAD AY Kullback-Leibler 散 度 。m x 1 随机 向 量 
U 是 由 m 个 独立 的 变量 组 成 ， 由 


foa) = TE, C) 
表示 ， 而 m x 1 MRAP XM 定义 为 
X = AU 

其 中 A MEM ATE. Sf GERA fx (Xx) 导出 的 每 一 个 X 的 边缘 概率 密度 ， 则 
fx (x) All fy (x) ZBI BY Kullback-Leibler 散 度 可 以 作 如 下 的 Pythagoreas 分 解 : 

Dy ity = Dr + Drets (10.45) 
我 们 之 所 以 称 这 个 经 典 的 关系 为 Pythagoreas 分 解 ， 是 因为 它 具 有 信息 -几何 解释 (Amar, 
1985)。 在 注释 外 中 给 出 这 种 分 解 的 证 明 。 


10.6 互信 息 作 为 最 优化 的 目标 函数 


现在 我 们 对 Shannon 的 信息 论 模 型 已 经 有 了 适当 的 了 解 ， 可 以 讨论 它 在 研究 自 组 织 系统 
中 的 作用 。 

为 了 进行 讨论 ， 设 有 一 个 多 输入 /多 输出 的 神经 网 络 系统 。 在 这 里 主要 目标 是 为 一 个 特 
定 任务 (例如 ， 建 模 、 抽 取 统 计 突 出 特征 或 信号 分 离 ) 而 设计 的 系统 进行 自 组 织 。 通 过 选择 某 
些 系 统 变量 闻 的 互信 息 作为 优化 的 目标 子 数 ， 这 个 要 求 可 以 满足 。 这 种 特定 的 选择 应 该 考虑 
下 述 因素 : 

。 互信 息 如 同 10.4 节 的 讨论 有 一 些 独特 的 性 质 。 

。 无 需 教师 也 可 确定 ， 这 样 自 组 织 的 假定 自然 满足 。 

问题 变 成 了 系统 调整 自由 参数 ( 即 突 触 权 值 ) 以 优化 互信 息 的 问题 。 

根据 应 用 的 不 同 ， 我 们 能 够 确定 如 图 10-2 所 示 的 4 种 不 同情 况 ， 它 们 都 可 能 在 实际 中 
出 现 。 这 些 情况 可 以 描述 如 下 : 

。 在 10-2a 描绘 的 情况 1， 输 入 向 量 XADRY,,X,,--,X, 组成， 输出 向 量 Y 由 分 
量 Y ,了 Y,,…, 组成。 需求 是 最 大 化 传送 到 系统 输出 和 的 关于 系统 输入 义 的 信 
在 10-2b 描绘 的 情况 2， 一 对 输入 向 量 尺 , AX, 是 从 相 邻 但 不 重 倒 的 图 像 区 域 截取 而 
来 。 各自 产 生 的 纯 量 输出 分 别 是 Y, 和 了 Y,。 需 求 是 最 大 化 传送 到 Y, 的 关于 了 的 信 
息 ， 以 及 相反 的 需求 。 
在 图 10-2c 描绘 的 情况 3， 输 入 向 量 X, AX, 是 从 两 幅 不 同 的 图 像 相 应 部 分 截取 而 
来 。 各 自 产生 的 输出 分 别 是 Y, MY, ， 需 求 是 最 小 化 传送 到 Y, WAT Y, 的 信息 。 
在 图 10-2d 描绘 的 情况 4， 输 入 向 量 X 和 输出 向 量 立 与 图 10-2a 定义 的 形式 相似 ， 但 
有 相同 的 维 数 ( 即 1 = m)。 这 里 的 目标 是 使 输出 向 量 生 的 各 分 量 之 间 的 统计 依赖 最 
小 化 。 
在 所 有 的 这 些 情况 下 ， 互 信息 扮演 中 心 的 角色 。 但 是 ， 它 的 推导 过 程 还 是 要 根据 所 考虑 
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最 大 化 传送 到 YY 的 关于 XX 
的 信息 
输出 最 小 化 . 了 之 
Y TA RO ETT Rea 
Xa 
o Y, 人 Xa o Y, < 


最 大 化 传送 到 Y; WEF Xo 
Y, 的 信息 ,或 相反 x, 


AMEER SIY, 的 关于 
Y, 的 信息 ， 或 相反 


O Y, 


b) c) 

图 10-2 适用 于 Infomax 应 用 及 它 的 三 个 变 体 的 四 个 基本 情况 
的 具体 情况 而 定 。 在 本 章 余下 的 部 分 将 以 刚才 罗列 的 顺序 讨论 涉及 这 些 情况 的 问题 以 及 它们 
的 实际 含义 。 
10.7 最 大 互信 息 原则 


设计 一 个 神经 处 理 器 使 互信 息 1(Y;X) 最 大 的 思想 作为 统计 信号 处 理 的 基础 是 吸引 人 
的 。 这 种 优化 方法 在 Linsker( 1987, 1988a, 1989a) 提 出 的 最 大 互信 (maximum mutual information 
(Infomax) ) 原则 中 得 以 体现 ， 它 可 正式 陈述 如 下 . 

从 神经 系统 的 输入 层 观测 到 的 随机 向 量 买 到 系统 的 输出 层 得 到 的 随机 向 量 立 之 间 的 变 
换 应 该 这 样 选 择 ， 这 种 变换 使 得 输出 层 神经 元 的 活动 共同 最 大 化 关于 输入 层 神经 元 的 活动 的 
信息 。 最 大 化 的 目标 通 数 是 向 量 辟 和 了 之 间 的 互信 息 ICY;X), 

最 大 互信 息 原 则 提供 一 个 解决 如 图 10.2a 所 描述 的 信息 传输 系统 自 组 织 的 数学 框架 ， 它 
独立 于 实现 它 所 使 用 的 规则 。 同 样 ， 这 个 原则 也 可 以 看 作 信 道 容量 这 个 概念 在 神经 网 络 中 的 
对 应 物 ， 信 道 容量 定义 为 通过 一 个 通信 信道 的 信息 传输 率 的 Shannon 极限 。 

接 下 来 ， 我 们 给 出 两 个 涉及 有 噪声 的 单 神经 元 的 例子 说 明 最 大 互信 息 原则 的 应 用 。 在 一 
个 例子 中 噪声 出 现在 输出 端 ， 而 在 另 一 个 例子 中 噪声 出 现在 输入 端 。 

例 10.4 被 处 理 品 声 破 坏 的 单 神经 元 考虑 线性 神经 元 的 简单 情形 ， 假 设 系统 从 m 个 
源 节点 接受 输入 。 令 该 神经 元 的 输出 中 出 现 处 理 噪声 ， 可 表示 为 


Y= (SYw.k,) +N (10.46) ` 


其 中 w 为 第 i 个 突 触 权 值 ，N 为 处 理 噪声 ， 如 图 10-3 所 示 的 模型 。 假 设 ， 
。 输出 了 是 一 个 以 方差 为 中 的 Causs 随机 变量 ， 
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。 处 理 噪 声 N 也 是 一 个 Gauss BAHL SE E, 
均值 为 0， 方差 为 on 
。 处 理 噪声 N 与 输入 向 量 的 任何 一 个 分 量 
都 不 相关 ， 也 即 
E[NX,] =0 ”对 所 有 的 i 
输出 了 的 高 斯 性 可 以 用 两 种 方法 之 一 得 到 满足 。 
A X,, X, °°, Xn 全 部 是 Gauss 分 布 的 ， 再 
假设 附加 的 噪声 N 也 是 高 斯 的 ， 则 了 的 高 斯 性 
可 以 保证 ， 这 是 由 于 一 组 Gauss 分 布 的 随机 变量 图 10-3 单个 噪声 神经 元 的 信号 流 图 
的 加 权 和 仍 是 高 斯 的 。 或 者 输入 X’ XA ons 
是 独立 同 分 布 的 ， 在 m 很 大 的 条 件 下 利用 中 心 极限 定理 它们 的 加 权 和 趋 于 Gauss 分 布 。 
为 了 进行 分 析 ， 我 们 首先 注意 在 式 (10.30) 的 第 二 行 ， 输 入 向 量 习 与 输出 变量 了 之 间 的 
互信 息 1(Y;X) 是 





I(Y;X) = h(Y) - h(Y | X) (10.47) 
根据 式 (10.46)， 注 意 在 已 知 输入 向 量 和 的 情况 下 ， 输 出 工 的 概率 密度 函数 等 于 一 个 常数 加 
上 一 个 Gauss Sfi REILE ERREKA A, AE, RR h(YIX) 是 由 输出 神经 元 传送 
的 关于 处 理 噪声 N 而 不 是 向 量 义 的 “信息 ”。 我 们 可 以 设置 
h(Y 1X) = ACN) 
因此 式 (10.47) 可 以 重新 简化 为 


I(Y;X) = h(Y) — h(N) (10.48) 
应 用 式 (10.22) 关 于 Gauss 随机 变量 的 微分 粹 到 当前 的 问题 ， 我 们 得 到 
h(Y) = su + log(2xo? )] (10.49) 
和 h(N) = 方 L1+ log(2n0%)] (10.50) 
经 过 化 简 ， 将 式 (10.49) 和 式 (10.50) 代 入 式 (10.48) 得 
I(Y;X) = 二 el 号 ) (10.51) 


其 中 oy 依赖 于 ov。 
比值 /os FAVES RH, BERETE oy 为 固定 的 约束 条 件 ， 从 (10.51) 看 出 互信 息 
I(Y; 义 ) 通 过 神经 元 输出 了 的 方差 0 的 最 大 化 而 成 为 最 大 化 的 。 因 此 可 以 这 样 说 ， 在 一 定 的 
条 件 下 ,使 神经 元 输出 的 方差 最 大 化 也 就 是 使 神经 元 的 输出 信号 和 它 的 输入 之 间 的 互信 息 最 
大 化 (Linsker, 1988a)。 a 
Gl 10.5 受 附 加 输入 噪声 影响 的 单个 神经 元 ”假设 噪声 影响 在 每 一 个 输入 节点 的 突 触 
末端 的 线性 神经 元 的 行为 ， 如 图 10-4 所 示 。 根 据 这 第 二 个 噪声 模型 我 们 有 


m 


Y = >) w,(X, +N;) (10.52) 


其 中 假设 每 个 N 是 一 个 独立 Caus 随机 变量 ， 其 均值 为 0， 方差 为 品 。 我 们 可 以 将 式 
(10.52) 改 写成 类 似 式 (10.46) 的 形式 : 
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= ( > wX; ) +N’ 
其 中 NN 是 噪声 分 量 的 组 合 ， 定义 为 


= > w;N; 
噪声 N' 是 一 个 Gauss 分 布 ， 其 均值 为 0， 方差 为 所 
有 独立 曝 声 分 量 方 差 的 加 权 和 ; 即 是 


oy = w? o, 
SATS, FRAT HH Ze HE Y 是 方差 
A oy 的 Gauss 分 布 。 了 和 和 之 间 的 互信 息 ICY; 
X) h R (10.47) h. BÆ, xE 


h(YIX) 定 义 如 下 : 图 10-4 另 一 个 噪声 模型 
h(Y|X)= h(N’) 





= 4a + 2noy ) (10.53) 


= 3[1 + 2nox » w] 
这 样 ， 将 式 (10.49) 和 (10.53) 代 入 式 (10.47) 并 简化 ， 可 得 (Linsker， 1988a) 


2 


1(Y;X) = gh a5] (40.54) 
在 约束 on 保持 一 个 常量 条 件 下 ，7(Y;X) 的 最 大 化 就 是 比值 路 AZ” w WK, HP of 
是 w, 的 函数 。 E 


我 们 可 从 例 10.4 和 例 10.5 推出 什么 结论 ”首先 ， 从 给 出 的 两 个 例子 可 以 看 出 ， 应 用 最 
AR GRAF i, SAR of, MAM AAR 7( 六 和 ) 和 应 用 于 图 10-3 
的 模型 输出 的 方差 之 间 的 等 价 ， 并 不 能 直接 转 到 图 10-4 的 模型 。 只 有 当 对 图 10-4 的 模型 加 
ED wo? = 1 的 约束 时 ， 图 10-4 和 图 10-3 所 代表 的 模型 才 有 相似 的 行为 。 - 

一 般 说 来 ， 确 定 输入 向 量 X 与 输出 向 量 Y 的 互信 息 7(Y;X) 是 一 件 很 困难 的 事 。 在 人 鲍 
10.4 和 例 10.5 中 ， 为 了 数学 上 分 析 的 方便 ， 我 们 假设 系统 噪声 分 布 是 一 个 或 多 个 噪声 源 的 
多 元 Gauss 分 布 。 这 个 假设 需要 说 明 其 合理 性 。 

当 采 用 Gauss 噪声 模型 时 ， 本 质 上 是 采用 互信 息 的 一 个 替代 ， 其 计算 的 前 提 是 神经 元 的 
输出 向 量 Y 是 一 个 均值 向 量 和 协 方差 矩阵 都 与 实际 情况 相同 的 多 维 Gauss 分 布 。 在 Linsker 
(1993) 中 ， 利 用 Kullback-Leibler 散 度 提供 对 于 这 种 条 件 下 的 替代 互信 息 的 一 个 原则 性 理由 ， 
这 些 都 假设 网 络 已 经 存储 关于 输出 向 量 立 的 均值 向 量 和 协 方差 矩阵 而 不 包含 更 高 阶 统计 。 

最 后 ， 在 例 10.4 和 例 10.5 给 出 的 分 析 情 况 只 是 对 于 一 个 神经 元 进行 的 。 有 意 这 样 做 是 
意识 到 ; 为 了 最 大 互信 息 原 则 在 数学 上 易于 处 理 ， 最 优化 应 该 在 局 部 神经 元 级 进行 。 这 种 优 
化 符合 自 组 织 的 本 质 。 

例 10.6 在 例 10.4 和 例 10.5 中 ， 考 虑 了 带 有 了 噪声 的 神经 元 。 在 本 例 中 我 们 研究 一 个 无 
噪声 的 网 络 ， 它 将 任意 分 布 的 随机 向 量 X 变换 为 新 的 随机 向 量 Y。 注 意 I(X;Y) = 1(Y;X), 
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并 且 在 这 里 展开 式 (10.28) ， 可 以 将 输入 X Ala Y Za a RIAN 
7(Y;X) = H(Y) - H(Y | X) 
其 中 AY) YW, HOIN BE X BRIEF VY OAR. BOA X BY RE 
TREK, AARC NAOT RE: 它 发 散 到 - %w。 这 是 由 于 在 10.2 节 讨 论 的 连续 随机 
变量 粹 的 微分 特性 的 必然 结果 。 但 是 ， 当 我 们 考虑 互信 息 7(CY;X) 对 参数 化 映射 网 络 的 权 值 
矩阵 W 的 梯度 时 ， 这 个 困难 并 不 造成 什么 后 果 。 特 别 是 ， 我 们 可 以 写成 
JI(Y;X) 9H(Y) 

aw © 33W 
AARI W 独立 。 式 (10.55) 表 明 ， 对 于 一 个 无 噪声 映射 网 络 ， 最 大 化 输出 Y AOR 
于 最 大 化 立 和 网 络 输入 X 之 间 的 互信 息 H(X;Y)， 都 是 关于 映射 网 络 权 矩阵 W 求 最 大 化 
(Bell and Sejnowski, 1995)。 a 


10.8 最 大 互信 息 和 宛 余 减 少 


在 Shannon 的 信息 论 框架 中 ， 序 和 结构 代表 宛 余 ， 它 减少 接受 方 对 信息 分 辨 的 不 确定 
性 。 在 固有 过 程 中 我 们 拥有 的 序 和 结构 越 多 ， 则 观察 这 个 过 程 我 们 获得 的 信息 量 就 越 少 。 例 
如 考虑 高 度 结构 化 和 宛 余 的 序列 aaaaaa。 一 旦 得 到 第 一 个 样本 a， 则 我 们 就 可 以 立即 知道 
其 余 后 面 五 个 都 是 一 样 的 a。 这 样 的 一 个 序列 所 传递 的 信息 的 极限 是 单个 符号 传递 的 信息 
量 。 换 句 话 说 ， 样 本 序列 的 元 余 越 大 ， 从 环境 中 获取 的 信息 内 容 也 就 越 少 。 

从 互信 息 I(Y;X) 的 定义 ,我们 知道 这 是 对 一 个 系统 在 已 知 输入 为 处 时 ， 对 输出 YY 的 不 
确定 性 的 度量 。 最 大 互信 息 的 方法 是 使 互信 息 1(Y;X) 最 大 ， 其 结果 是 我 们 在 观测 到 输入 为 
Xt, WASH Y 增加 确定 性 。 考 虑 到 前 面 提 到 的 信息 与 元 余 之 间 的 关系 ， 因 此 我 们 可 
以 说 ， 最 大 互信 息 原 则 导致 与 在 输入 义 中 的 元 余 比较 而 言 减 少 输出 YY 中 的 元 余 。 

噪声 的 出 现 是 推动 使 用 宛 余 以 及 相 异 性 (diversity) 相关 方法 的 一 个 因素 (Linsker, 1988a)。 
当 输入 信号 的 附加 性 噪声 很 高 时 ， 我 们 可 以 利用 元 余 来 减少 噪声 的 效果 。 在 这 种 环境 下 ， 输 
和 信号 之 间 的 更 多 (相关 ) 分 量 都 由 处 理 器 组 合 起 来 ， 以 提供 输入 的 精确 表示 。 同 样 ， 当 输出 
端的 噪声 ( 即 处 理 器 噪声 ) 很 高 时 ， 给 出 更 多 的 输出 分 量 以 提供 宛 余 信 息 。 在 处 理 器 输出 端 观 
测 到 的 相互 独立 的 属性 也 相应 地 减少 了 ,但 各 个 属性 表示 的 精确 度 反而 提高 了 。 因 此 我 们 可 
以 这 样 说 : 高 水 平 的 嗓 声 有 利于 表示 的 宛 余 。 但 是 ， 当 噪声 水 平 很 低 时 ， 表 示 的 相 异 性 比 宛 
余 更 有 利 。 我 们 用 相 异 性 表示 处 理 器 产生 两 个 或 多 个 具有 不 同性 质 的 输出 。 习 题 10.6 讨论 
的 元 余 / 相 异性 的 折 中 是 由 最 大 互信 息 观点 得 来 的 。 值 得 一 提 的 元 余 / 相 异性 折 中 与 第 2 章 提 
到 的 偏 置 /方差 折 中 是 类 似 的 。 


感知 系统 建 模 


自从 信息 论 的 早期 ， 就 提出 了 感觉 消息 (刺激 ) 的 元 余 对 感知 理解 非常 有 用 (Attneave， 
1954; Barlow,1959)。 感 觉 消 息 的 元 余 提供 了 人 脑 建 立 其 周围 环境 的 “ 认 知 映射 "或 “工作 模型 ” 
(Barlow, 1989)。 在 感觉 消息 中 规则 必须 以 某 种 方式 被 人 脑 编 码 ， 使 它 知道 什么 经 常 发 生 。 但 
Æ, TRB EE Barlow 假设 的 特定 形式 。 这 个 假设 说 早期 处 理 的 目的 是 将 高 宛 余 的 感觉 输入 
转化 成 更 有 效 的 析 因 码 (factorial code)。 换 句 话 说， 在 输入 条 件 下 使 神经 元 输出 统计 独立 。 

受 Barlow 假设 的 启发 ，Atick and Redlich(1990) 提 出 把 最 小 宛 余 原 则 作为 如 图 10-5 所 示 的 


(10.55) 
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感知 系统 的 信息 论 模 型 的 基础 。 系 统 的 由 三 个 部 分 组 成 : 输入 通道 ， 重 编码 系统 ， 输 出 通 
道 。 输 入 通道 的 输出 可 以 表示 为 

X=S+N, 
Ap S 是 输入 通道 接收 到 的 理想 信号 ，N s 
BRAWA PAREA. Be aS X 
被 线性 矩阵 算 子 A 变换 ( 重 编码 ) ， 然 后 通 
过 视 党 神经 或 输出 通道 传输 ， 产 生 输 出 Y， (视觉 神经 ) 





表示 为 图 10-5 感知 系统 模型 、 信 号 向 量 s 和 噪声 
Y= AX+N, 向 量 w 和 w 分 别 是 随机 向 量 S，N, FIN, 的 值 


其 中 N, 表示 后 编码 本 身 的 噪声 。 在 Atick 

和 Redlich 的 方法 中 ， 观 察 到 达 视 网 膜 的 光 信 和 号 包含 一 些 非常 有 用 的 高 宛 余 形 式 的 感觉 信息 。 
进一步 假设 在 信号 沿 视觉 神经 发 送 以 前 视网膜 信号 处 理 的 目的 就 是 减少 或 消除 由 于 互相 关 性 
和 噪声 所 带 来 的 数据 元 余 。 为 了 定量 地 描述 这 种 观点 ， 一 个 完 余 度 度量 定义 如 下 ; 

(10.56) 


其 中 I(Y;S) 是 Y 和 SS 之 间 的 互信 息 ，C(Y) 是 视觉 神经 (输出 通道 ) 的 信道 容量 。 式 (10.56) 
的 合理 性 基于 人 脑 感 兴趣 的 信息 是 理想 的 输入 信号 S$， 但 是 信息 必须 经 过 的 物理 信道 实际 上 
是 视觉 神经 。 假 设 在 感知 系统 完成 的 输入 与 输出 映射 之 间 没 有 维 数 减 少 ， 这 意味 着 C(Y) > 
1(Y;S)。 要 求 找 到 一 个 输入 -输出 映射 ( 即 矩 阵 A) 使 元 余 度 度量 R 达到 最 小 且 满 足 不 丢失 
信息 的 约束 ， 可 以 表示 为 
I(Y;X) = I(X;X) -e 

其 中 < 是 一 个 很 小 正 参 数 。 信 道 容量 C(Y) 定 义 为 保持 平均 输入 能 量 固 定 的 条 件 下 和 对 所 有 
应 用 于 它 的 输入 的 概率 分 布 ， 可 能 流 过 视觉 神经 的 最 大 信息 率 。 

当 信和 号 向 量 S 和 输出 向 量 衬 有 相同 的 维 数 和 系统 存在 噪声 时 ， 最 小 完 余 度 原 则 和 最 大 
互信 息 原则 是 数学 上 等 价 的 ， 只 要 假设 在 两 种 情况 下 输出 神经 元 计算 能 力 的 约束 相同 。 具 体 
地 ， 假 设 根 据 图 10-5 的 模型 中 信道 容量 的 度量 取决 于 每 一 个 神经 元 输出 的 动态 范围 。 那 么 ， 
根据 最 小 元 余 度 原则 ， 对 于 一 个 给 定 的 允许 信息 丢失 ,以 及 从 而 对 于 一 个 给 定 的 F(Y;S)， 
需要 最 小 化 的 量 定义 为 


1 ICY;S) 
~ KS) 
因此 ， 这 样 最 小 化 的 量 本 质 上 为 
FI(Y;S) = C(Y) - AI(Y;S) (10.57) 


另 一 方面 ， 根 据 最 大 互信 息 原则 ， 在 图 10-5 的 模型 中 需要 最 大 化 的 量 为 
F,(Y;S) = I(Y;S) + 入 C(Y) (10.58) 
ERR FI(Y;S) 和 已 (Y;S) 并 不 相同 ， 但 是 它们 的 最 优化 产生 相同 的 结果 : 它们 都 是 
Lagrange 乘 子 法 的 公式 ， 仅 仅 是 1(Y;S) 和 C(Y) 简 单 地 互 换 了 角色 。 
从 这 些 讨论 中 注意 到 这 样 一 个 重要 的 观点 : 虽然 公式 不 同 ， 但 是 这 两 个 信息 论 的 原则 产 
生 相 似 的 结果 。 总 的 来 说 ， 一 个 神经 网 络 输入 和 输出 之 间 的 互信 息 的 最 大 化 确实 可 以 导出 完 
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RÉM”. 
10.9 空间 相干 特征 


在 10.6 节 中 提出 的 最 大 互信 息 原 则 ， 主 要 应 用 于 如 图 10-2a 所 示 的 情况 下 ， 神 经 系统 的 
输出 向 量 Y 和 输入 向 量 义 之 间 的 互信 息 JCY;X) 作 为 一 个 求 最 大 值 的 目标 函数 。 在 术语 上 作 
适当 改变 ， 我 们 可 以 将 其 扩展 到 自然 景物 图 像 的 无 监督 处 理 中 (Becker and Hinton,1992)。 一 
个 未 处 理 的 图 像 的 像素 ， 虽 然 形 式 很 复杂 ， 但 是 包含 我 们 感 兴趣 的 景物 的 丰富 信息 。 特 别 
是 ， 每 个 像素 的 密集 度 受 内 在 参数 的 影响 ,例如 深度 、 反 射 、 表 面 方向 和 背景 噪声 以 及 照明 
度 。 目 的 就 是 设计 一 个 自 组 织 系统 ， 能 够 学 习 将 这 种 复杂 的 信息 编码 成 一 种 简单 的 形式 。 更 
具体 一 点 ， 目 标 就 是 从 这 个 图 像 中 提取 能 够 展现 该 图 像 空 间 相 干 的 高 阶 特征 ， 使 得 在 图 像 的 
空间 局 部 区 域 的 信息 表示 很 容易 产生 邻近 区 域 的 信息 表示 ; 区 域 是 指 图 像 中 的 一 组 像素 的 集 
合 。 这 种 描述 的 情况 属于 图 10-2b 的 场景 。 

因此 我 们 可 以 将 最 大 互信 息 原则 的 第 一 个 变 体 " 说明 如 下 (Becker, 1996; Becker and 
Hinton, 1992) : 


AN BEX, FX, (代表 一 个 神经 系统 相 邻 的 无 重 登 的 图 像 区 域 ) 的 变换 应 该 如 此 选择 ， 
使 得 输入 X, 对 应 的 纯 量 输出 Y, 最 大 化 输入 X, 对 应 的 纯 量 输出 了 的 信息 。 最 大 化 的 目标 函 
数 就 是 输出 Y, 和 了 ,之 间 的 互信 息 I(Y,;Y,)。 

我 们 称 此 为 最 大 互信 息 原则 的 变 体 ， 意 思 是 指 它 并 不 和 最 大 互信 息 原则 相等 价 或 能 够 从 
其 推导 出 来 ， 但 必定 以 相似 的 精神 起 作用 。 





图 10-6 按照 最 大 互信 息 的 第 一 个 变 体 处 理 图 像 的 两 个 邻近 区 域 


进一步 我 们 考虑 图 10-6 所 示 的 情况 ， 有 两 个 神经 网 络 ( 模 型 )a 和 1， 分 别 接 受 输入 为 

X, 和 X, ， 来 自 同一 图 像 中 相 邻 的 不 重 释 区域， 各 自 的 纯 量 输出 分 别 是 Y, MY, > 5 表示 

Y, AY, 中 共同 信号 分 量 ， 它 是 原始 图 像 的 两 个 相关 区 域 的 空间 相干 性 的 表示 。 我 们 可 以 将 
Y, AY, 看 成 共同 信号 5 的 带 噪声 形式 ， 表 示 为 

Y, = S+N， (10.59) 

和 Y,=S+N, (10.60) 

N, FAN, 是 加 性 噪声 分 量 , 假设 为 统计 独立 的 零 均 值 Gauss 分 布 随机 变量 。 信 和 号 分 量 $ 也 假 
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TEN Gauss 分 布 的 。 根 据 式 (10.59) 和 式 (10.60) ， 在 图 10-6 中 假设 模块 a Fb 彼此 相 容 。 
利用 式 (10.30) 的 最 后 一 行 ，Y, AY, 的 互信 息 定义 为 


I(Y,;¥,) = ACY,) + ACY,) - h(Y,,Y,) (10.61) 
根据 式 (10.22) 关 于 Gauss EDLE TA, Y, GACY 
ACY,) = FUL + log(2no2) ] (10.62) 
FOP of BY, 的 方差 。 同 理 得 Y, WOMAN 
ACY,) = $u + log( 2x0; ) ] (10.63) 
其 中 o, EY, WHR. BFRA BANG h(Y,，Y,)， 我 们 利用 式 (10.24) 得 
ACY,,¥,) = 1+ log(2x) + Flog | det() | (10.64) 
2x2 WEE Die Y, AY, 的 协 方 差 矩 阵 ， 定 义 为 
z-| * Paces (10.65) 
Qab Fa Fp O; 


其 中 p EY, MY, 的 相关 系数 ; 也 就 是 
_ E((Y, - ELY,1)(Y, - ELY,1)] 





pu go, (10.66) 
所 以 矩阵 于 的 行列 式 为 
det(Z) = oo (1 - éa) (10.67) 
并 且 我 们 可 以 将 式 (10.64) 重 写 为 
ACY, Ys) = 1 + log(2r) + FlogLo (1 e )] (10.68) 
将 式 (10.62)，(10.63) 和 式 (10.68) 代 入 式 (10.61)， 并 化 简 得 
IY. Y,) =- Alog - 6s) (10.69) 


从 式 (10.69) 我 们 立即 推出 ， 最 大 化 互信 息 1( 了 Y, ; Y ) 等 价 于 最 大 化 相关 系数 o。。 这 从 直观 上 
看 也 是 满足 的 。 注 意 ， 由 ou 定义 ，low1 友 1。 

最 大 化 1(Y,; Y,) 可 以 看 作 统 计 学 中 求 标 准 相关 的 非 线性 推广 (Becker and Hinton, 1992). 
给 定 两 个 输入 向 量 (刺激 )X。 和 X, (不 必 有 相同 的 维 数 )， 和 相应 的 有 两 个 权 向 量 w, Aw, 
标准 相关 分 析 的 目的 就 是 指 找到 一 个 线性 组 合 Y, = wiX。 和 了 = WX,， 使 它们 之 间 的 相关 
性 最 大 (Anderson,1984)。 最 大 化 1(Y, ; Y ) 为 标准 相关 分 析 的 非 线 性 推广 ， 是 由 于 图 10-6 中 
神经 网 络 内 斤 模 块 设计 的 非 线性 。 

在 Becker and Hinton(1992) 中 ， 演示 了 通过 最 大 互信 息 1( 工 ;Y) 可 以 从 一 个 随机 体 视点 
图 中 提取 体 视 不 均衡 性 (深度 )。 这 是 一 个 很 困难 的 特征 提取 问题 ， 不 能 由 一 个 一 层 或 线性 神 
经 元 网 络 来 解决 。 


10.10 空间 非 相干 特征 
在 前 面 一 节 里 我 们 讨论 了 一 个 无 监督 的 图 像 处 理 过 程 ， 它 从 一 个 图 像 中 提取 空间 相干 特 
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征 。 现 在 我 们 将 讨论 与 那里 相反 的 问题 。 具 体 地 说 ， 考 虑 图 10-2c， 其 中 目的 是 增强 从 两 个 
不 同 图 像 中 抽取 相应 区 域 的 空间 差异 。 在 图 10-2b 中 ,我们 是 求 模块 输出 间 的 互信 息 最 大 
化 ， 在 图 10-2c 中 我 们 做 相反 的 工作 。 

因此 我 们 可 以 将 最 大 互信 息 原则 的 第 二 个 变 体 ， 陈 述 如 下 (Ukrainec and Haykin, 1992, 
1996): 

AKA RAR) ART BL a) IR AGS REE A ASX, fo X,, PARAM EIN 
变换 的 选择 应 该 使 得 输入 X, 对 应 的 系统 纯 量 输出 Y, 关于 输入 X, 对 应 的 系统 纯 量 输出 了 信 
息 最 小 。 最 小 化 的 目标 函数 是 输出 Y, 和 了 之 间 的 互信 息 I(Y,;Y,)。 


同样 在 这 里 我 们 称 之 为 最 大 互信 息 原 则 的 变 体 ， 意 思 是 指 它 并 不 和 最 大 互信 息 原则 等 价 
或 能 够 从 其 推导 出 来 ， 但 必定 以 相似 的 精神 起 作用 "i。 

最 大 互相 信息 原则 的 第 二 种 变 体 在 雷达 偏振 测定 (radar polarimetry) 方 面 有 所 应 用 。 雷 达 
监视 系统 产生 一 对 (或 更 多 ) 我 们 感 兴趣 的 环境 的 图 像 ， 利 用 在 一 个 偏振 方向 上 传送 ， 在 相同 
或 不 同 偏振 方向 接收 得 到 反 向 散射 。 偏 振 可 以 在 垂直 方向 ， 也 可 以 在 水 平方 向 上 。 例 如 ， 我 
们 可 能 有 两 幅 雷 达 图 像 ， 一 幅 图 像 代表 相同 方向 (水 平 - 水 平 ) 的 偏振 ， 而 另 一 幅 为 交叉 方向 
(水 平 - 垂直 ) 的 偏振 。 这 样 的 应 用 由 Ukrainec and Haykin(1992,1996) 提 出 ， 属 于 在 一 个 双 偏 
振 雷达 系统 中 的 偏振 目标 增强 。 研 究 中 雷达 景物 的 采样 描述 如 下 。 在 一 个 非 相 干 雷达 以 水 平 
偏振 方式 传播 ， 在 垂直 和 水 平 偏振 频道 接收 雷达 返回 。 感 兴趣 的 目标 就 是 设计 一 个 协 件 偏振 
扭曲 反射 器 来 将 偶然 偏振 旋转 90 度 。 在 普通 的 雷达 系统 操作 中 ， 这 样 一 个 目标 的 探测 是 非 
常 困难 的 ， 既 因为 雷达 系统 的 缺陷 也 因为 地 面目 标 会 发 生意 想不到 的 偏振 ， 并 反射 回来 产生 
杂 波 (clutter)。 我 们 发 现 需 要 用 一 个 非 线 性 映射 来 解释 普通 雷达 返回 结果 的 非 Gauss 分 布 。 
目标 增强 问题 变 为 涉及 约束 二 次 函数 最 小 化 的 求解 问题 。 最 终结 果 是 一 个 处 理 后 的 交叉 偏振 
图 像 ， 它 在 目标 可 见 度 方面 表现 出 极 大 的 提高 ， 而 且 远 比 我 们 应 用 诸如 主 分 量 分 析 之 类 的 线 
性 技术 得 到 的 效果 要 好 得 多 。 因 为 模型 无 关 的 概率 密度 函数 估计 是 一 个 计算 量 非 常 大 的 工 
作 ， 所 以 Ukraire 和 Haykin 提出 的 模型 对 变换 后 的 数据 假设 是 Gauss 统计 分 布 的 。 两 个 Gauss 
变量 Y, WY, 的 互信 息 由 式 (10.61) 定 义 。 为 了 学 习 两 个 模型 的 突 触 权 值 ， 采 用 了 变通 的 方 
法 。 要 求 是 抑制 雷达 杂 波 ， 对 水 平 偏振 和 垂直 偏振 的 雷达 图 像 这 是 常见 的 。 为 了 满足 该 要 
求 ， 最 小 化 互信 息 (YY), WE FEMENA RARR: 


P = (ul W’w] - 1)? (10.70) 
其 中 凡是 网 络 总 的 权 值 矩阵 ，tr[ . ] 是 括号 内 矩阵 的 迹 。 如 果 
VwI( Y, Y,) + XVwP = 0 (10.71) 


成 立 ， 我 们 可 以 得 到 一 个 稳定 点 ， 其 中 入 是 拉 格 朗 日 乘 子 。 利 用 拟 牛顿 最 优化 程序 寻找 最 小 
值 。 在 第 4 章 讨 论 拟 牛顿 方法 。 

图 10-7 显示 Ukrairec and Haykin(1992,1996) 所 用 的 神经 网 络 结构 。 对 每 个 模型 选择 一 个 
Gauss 径 向 基 函 数 网 络 (RBF) ， 这 是 因为 它 可 以 提供 一 系列 的 固定 基 函 数 的 好 处 ( 即 ， 有 一 个 
非 自 适应 隐藏 层 )。 输 入 数据 在 基 函 数 上 展开 ， 然 后 通过 线性 权 值 层 相 结合 ; 在 图 10-7 中 的 
虚线 代表 两 个 模块 间 的 交叉 耦合 连接 。Gauss 函数 的 中 心 在 区 间 内 均匀 选择 以 便 能 完整 覆盖 
全 部 输入 区 域 ， 它 们 的 宽度 选择 应 用 启发 式 规则 。 图 10-8a 显示 一 个 在 安大略 湖岸 边 的 一 个 
公园 的 水 平 极 化 和 垂直 极 化 的 雷达 图 像 。 每 一 幅 图 像 的 范围 坐标 是 沿 水 平 轴 的 ,从 左 到 右 
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图 10.7 神经 处 理 器 框图 ， 它 的 目标 是 利用 一 对 偏振 测定 的 非 相干 雷达 
输入 抑制 背景 杂 波 ; 杂 波 抑制 由 最 小 化 两 个 模型 输出 的 互信 息 来 达到 


反射 器 





图 10-8 a) 未 处 理 的 B- 扫描 雷达 图 像 (方位 角 和 范围 图 10-8 b) 最 小 化 图 10-8a) 的 两 幅 偏 振 雷 达 
对 比 )， 水 平 -水 平 偏振 (上 ) 和 水 平 -垂直 (下 ) 偏 振 图 像 之 闻 的 互信 息 ， 计 算得 出 的 合成 图 像 
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递增 ; 方位 角 坐 标 沿 牌 直 轴 。 图 10-8b 显示 采用 最 小 化 水 平 极 化 和 垂直 极 化 的 雷达 图 像 的 互 
信息 的 组 合 图 像 。 一 个 非常 清晰 的 亮点 在 图 像 中 可 以 看 出 来 ， 它 是 根据 雷达 从 放 在 湖 边 的 一 
个 协作 偏振 扭曲 反射 器 返回 的 。 这 里 描述 的 信息 论 模 型 的 杂 波 压制 的 性 能 已 超出 了 普通 使 用 
主 分 量 分 析 方 法 利用 投影 的 性 能 (Ukrainec and Haykin, 1992, 1996 )" , 


10.11 独立 分 量 分 析 


现在 我 们 将 注意 力 集中 在 由 图 10-2d 描述 的 最 后 场景 。 为 了 使 那里 陈述 的 信号 处 理 问 题 

更 加 具体 化 ， 考 虑 图 10-9 的 方 框图 。 操 作 从 一 个 随机 源 向 量 U(n) 开 始 ， 其 定义 为 
U = [U Uz, Un |" 
其 中 m 个 分 量 是 由 一 列 独立 源 提供 的 。 这 里 考虑 时 间 序 列 ; 因而 这 里 的 n 表示 离散 的 时 间 。 
向 量 U 应 用 到 一 个 线性 系统 中 ， 其 输入 输出 之 间 的 关系 由 一 个 非 奇 异 的 m x m 的 称 为 混合 
矩阵 的 A 决定， 结果 是 产生 一 个 观察 向 量 X(n)， 它 和 U(n) 关 系 如 下 ( 见 图 10- 10a): 
X= AU (10.72) {510 

其 中 和 = [Xi ,XX ,… ,XX |’. Bet U 和 混合 矩阵 A 都 是 未 知 的 ， 我 们 所 知道 的 仅仅 是 观测 
HEX ARE 入 ， 问 题 是 找到 一 个 分 离 矩 阵 (demixing matrix)W， 使 得 可 以 从 输出 向 量 Y 中 恢 
复 源 向 量 U( 见 图 10-10b)), XW 














Y = WX (10.73) 
其 中 Y=[Y, ,了 Y,,…,Y, J’. BRRQUHAS U,,U,,--,U, 是 零 均 值 的 ， 这 样 可 观测 的 乞 ， 
X,，,… ,XX 也 是 均值 为 零 的 信号 。 对 分 离 器 的 输出 Y, Y,.°°, Y, 也 同样 如 此 。 





图 10-9 用 于 言 源 分 离 问 题 的 处 理 器 方 框图 
向 量 u，x 和 yy 分 别 是 随机 向 量 ,，X 和 YY 的 值 




















图 10-10 细节 描述 
a) 混 合 和 矩阵 b) 分 离 矩 阵 
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我 们 可 以 定义 盲 源 分 离 问 题 如 下 : 
给 定 观测 向 量 义 的 NN 个 独立 实现 ， 找 一 个 混合 矩阵 A 的 逆 的 估计 。 


源 分 离 主 要 利用 空间 相 异 性 ， 不 同 传感器 提供 的 向 量 X 的 实现 携带 有 源 的 不 同 混合 。 
如 果 存 在 谱 相 异性 ， 谱 的 相 蜡 性 也 可 以 被 利用 ， 但 源 分 离 问题 的 根本 方法 本 质 上 是 空间 的 ; 
通过 传感器 而 不 是 通过 时 间 寻 找 结构 (Cardoso,1998a) 。 

这 种 方法 用 于 盲 源 分 离 问题 是 可 行 的 ， 除 了 每 个 信号 成 分 有 一 个 任意 尺度 的 变动 ， 以 及 
标号 的 置换 。 也 就 是 说 ， 可 以 找到 一 个 分 离 矩阵 W， 它 的 每 个 列 是 混合 矩阵 A 中 的 某 列 的 
ERARA -个 比例 系数 。 这 种 方法 可 以 表达 为 

Y = WX = WAU> DPU 

的 形式 ， 其 中 卫 是 一 个 非 奇异 对 角 和 矩阵 ，P 是 一 个 置换 矩阵。 

在 这 里 所 描述 的 问题 通常 称 为 盲 (信和 号 ) 源 分 离 问 题 Pa; ， 其 中 使 用 “ 盲 " 这 个 术语 是 指 用 
于 恢复 原始 信号 的 仅 有 信息 包含 在 观测 向 量 X 的 实现 中 。 在 它 的 解答 中 内 在 的 原则 是 独立 
分 量 分 析 (independent components analysis,ICA)(Comon,1994) ， 这 可 以 看 作 是 主 分 量 分 析 (PCA) 
的 一 个 拓展 。 而 PCA 强制 到 至 多 为 二 阶 独立 的 ， 而 且 向 量 的 方向 限制 为 正 交 的 ， 而 ICA 对 
于 输出 向 量 Y 的 单个 分 量 限制 为 统计 独立 ， 并 且 没 有 正 交 性 的 限制 。 在 实际 中 还 应 注意 ， 
独立 分 量 分 析 的 实现 算法 仅 能 够 达到 “ 尽 可 能 统计 独立 ”。 

在 多 种 应 用 中 都 出 现 育 源 分 离 问题 ， 包 括 以 下 几 种 情况 : 

。 语音 分 离 。 这 种 应 用 中 向 量 x 由 一 些 语音 信号 通过 线性 混合 而 成 ， 要 求 就 是 将 它们 

分 离 出 来 (Bell and Sejnowski,1995) 。 这 种 情况 的 困难 形式 ， 例 如 ， 出 现在 电视 会 议 环 
境 。 

。 阵列 天 线 处 理 。 在 第 二 种 应 用 中 ， 向 量 x 代表 由 一 个 雷达 阵列 天 线 产生 的 和 输出， 它 
从 未 知 方向 的 源 发 射 一 些 偶然 的 窗 带 信和 号 产生 (Cardoso and Souloumia, 1993; 
Swindlehurst et al. ,1997)。 这 里 的 要 求 也 是 分 离 源 信号 。( 对 窄带 信号 我 们 是 指 一 个 带 
通信 号 ， 它 的 带宽 比 载波 频率 小 。) 

。 多 传感器 生物 医学 记录 。 在 这 第 三 种 应 用 中 ， 向 量 x 由 用 于 监视 生物 信号 的 一 些 传 

感 器 产生 的 记录 组 成 。 例 如 ， 要 求 可 能 是 从 母亲 的 心跳 中 分 离 出 胎儿 的 心跳 
(Cardoso, 1998b) o 

。 金融 市 场 数据 分 析 。 在 这 种 应 用 中 ， 向 量 x 由 一 系列 不 同 的 证 券 市 场 数据 组 成 ， 要 
求 抽 取 潜 在 的 占 优势 的 独立 成 分 (Back and Weigend, 1998), 

在 这 些 应 用 中 ， 盲 源 分 离 问 题 可 能 因为 下 列 原因 更 复杂 : 可 能 存在 未 知 传播 延迟 ， 它 们 
的 环境 强加 于 源 上 的 扩展 滤波 以 及 观测 向 量 x 难免 混入 的 噪声 。 这 些 损害 意味 着 (很 不 幸 ) 在 
(10.72) 所 描述 的 瞬时 混合 的 理想 信号 在 现实 世界 上 很 少 遇 到 。 但 在 下 面 的 讨论 中 ， 为 了 对 
盲 源 分 离 问 题 的 基础 理论 有 一 个 清楚 的 认识 我 们 将 忽略 这 些 损害 。 


统计 独立 准则 


由 于 对 育 源 分 离 输 出 向 量 Y 的 分 量 期 望 具有 统计 独立 的 性 质 ， 我 们 能 用 什么 度量 去 测 
重 独立 性 ? 一 个 明显 的 可 能 性 是 对 组 成 输出 向 量 Y 的 任意 两 个 随机 分 量 YY MY, AAEN 
的 互信 息 IY Y) ERRET, 4 1(Y; YASH, Y, 和 统计 独立 。 因 此 这 将 意味 
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着 对 组 成 输出 向 量 Y 的 任意 两 个 随机 变量 Y 和 中， 最 小 化 它们 的 互信 息 ICY; 了)。 这 个 月 
标 等 价 于 最 小 化 下 列 两 个 分 布 的 Kullback-Leibler 散 度 : (1) 概 率 密度 函数 /y(y,W) 被 W 参数 
化 ; (2) 相 应 的 析 因 分 布 定义 为 
frly,W) = [A Oow) (10.74) 

HP fy Gy ,W) 是 7 的 边缘 概率 密度 函数 。 实 际 上 (10.74) 可 以 看 作 是 加 在 学 习 算 法 上 的 约 
R, PRM f(y,W) 与 及 (y,W) 分 开 。 我 们 可 以 将 最 大 互信 息 原则 的 第 三 种 变 体 陈述 如 
F (Comon, 1994) : 

给 定 一 个 m x1 hE X, CAT m 个 独立 源 信号 的 一 个 线性 组 合 。 由 神经 系统 将 输入 
向 量 自 变换 为 输出 向 量 Y 了 了， 该 变 措 应 这 样 进行 ,使 得 参数 化 概率 ( 记 为 fy(y,W)) 与 相应 的 
析 因 分 布 fy(y,W) 之 间 的 Kullback-Leibler KE X FARRER W 最 小 化 。 


这 里 所 描述 的 用 于 问题 的 Kullback-Leibler 散 度 在 10.5 节 已 经 考虑 。 我 们 要 找 的 公式 由 
式 (10.44) 给 出 。 应 用 该 公式 到 目前 这 种 情况 ， 可 以 将 fy (y, W) 与 f(y,W) 的 Kullback- 
Leibler 散 度 表示 为 


Dy(W) =- h(Y) + SHY) (10.75) 


其 中 aED Be RL Y A, ACY YB i PICHIA. Kullback- 
Leibler 散 度 Dy ;就 是 以 后 我 们 解决 育 源 分 离 问题 的 目标 函数 。 


fh HG h(Y) 的 确定 


由 式 (10.73) 给 出 输出 向 量 Y 与 输入 向 量 义 有关， 其 中 W 是 分 离 矩阵 。 根 据 式 (10.18)， 
我 们 可 以 把 Y 的 微分 炉 表示 为 
h(Y) = hCWX) = h(X) + log | det(W) | (10.76) 
其 中 det(W) dE W 的 行列 式 。 


WS hl Y;) 的 确定 


为 了 求 Kullback-Leibler 散 度 Dy, ;， 我 们 也 需要 知道 边缘 粹 h(Y,)。 为 了 确定 ACY BS 
知道 了 的 边缘 分 布 ， 这 就 要 求 累 计 随 机 向 量 YY 除了 i 外 的 所 有 分 量 的 作用 。 对 于 一 个 高 维 
的 向 量 了 来 说 , OR AOZER h(Y) 困 难得 多 。 根 据 随机 变量 Y, 的 高 阶 矩 我 们 推导 出 
h(Y) 的 一 个 近似 表达 式 来 克服 这 个 困难 。 适 当 截 断 下 面 两 个 展开 式 中 的 一 个 可 以 完成 这 个 
任务 : 

。 Edgeworth 级 数 ( Comon,1991) 

e Gram-Charlier 级 数 ( Amari et al. ,1996) 

在 本 章 中 ,我们 将 运用 第 二 种 方法 。 在 注释 i 中 中 给 出 Gram-Charlier 级 数 的 说 明 。 在 该 注 
释 中 对 Edgeworth 级 数 也 做 了 扼要 描述 。 

具体 地 说 ， 参 数 化 的 边缘 概率 密度 函数 fy (yi, W) AY) Gram-Charlier 展开 式 表示 为 
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fr W) = az)[1+ Sat (y)] (10.77) 


其 中 各 项 的 定义 如 下 : 
1. 乘 数 因子 aly ) 是 一 个 具有 零 均 值 和 方差 为 1 的 归 一 化 的 Gauss 随机 变量 的 概率 密度 


函数 ; 即 





1 
a) = Ta 
2.H,(y;) fz Hermite 多 项 式 。 
3. 展开 系数 1c :k=3,4,…| 由 随机 变量 Y, 的 累计 量 定义 。 
在 (10.77) 中 各 项 的 自然 顺序 并 不 是 Cram-Charlier RA PRK. FR, PRES pz 
出 的 项 应 组 合 在 一 起 (Helstrom, 1968): 
k = (0),(3),(4,6),(5,7,9),…… 
对 于 盲 源 分 离 问 题 ，Gram-Charier 级 数 中 在 = (4,6) 截 断 时 ， 对 边缘 概率 函数 fy Cy; ) AY i WE 
就 足够 了 。 于 是 我 们 可 以 写成 
ROD = aby (1 + SEMO) + SREO) + 
其 中 ki 是 Y; 的 第 天 Bt BAB 令 mm 表示 Y; 的 第 上 ME, 定义 为 
Mi, k = EL Yi] 
= E[( Dwax)’] (10.79) 
其 中 X, 是 向 量 义 的 第 i 个 元 素 ，wi 是 权 值 矩阵 W 中 的 (i,k) 元 素 。 在 此 之 前 我 们 已 经 假设 


所 有 的 Y, 的 均值 为 零 。 相 应 地 ， 我 们 有 方差 of = m,,( 即 方差 和 均 方 值 相等 )， WEY, 的 
阶 累积 量 同样 如 此 : 


„e + 10K; 
(us + Ma) p(y)) (10.78) 


Ki3 = M3 (10.80) 
Ki,4 = Mig 一 3m2 (10.81) 
Ki,6 = Mig 一 10m} — l5m;2mM;4 + 30mia (10.82) 


利用 式 (10.78) 的 逼近 ， 广 (y;) 的 算法 给 出 如 下 : 


logfy, (7 ) = loga(y;) + log| 1 + ai H (y) + at Ha) + Cs + 1082) p00,)) 
(10.83) 
为 了 继续 进行 ， 我 们 利用 对 数 展开 式 
log(1 + y) = y -É (10.84) 
其 中 三 阶 和 三 阶 以 上 的 项 都 被 省 略 了 。 
从 前 面 的 讨论 ， 我们 回忆 计算 Y, LRR ARABA (10.43)) 
RY) =- [T f(y ogfy nd, = .2 
其 中 m 是 源 的 数目 。 利 用 式 (10.78)，(10.83) 和 式 (10.84) 中 的 近似 值 ， 进 行 涉及 aly, ) 和 各 种 
Hermite 多 项 式 H, Cy; ) 的 积分 ， 我 们 得 到 边缘 焙 的 近似 公式 (Madhuaranth and Haykin, 1998) ; 
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2 2 2 2 
~ K; K; (ki6 + 10k;.;) 
ACY.) = 方 log(2re) - “i — St osta 
K 3 (Ki .6 十 10i) Ka (K; + 1063) 


3 
+ Shaka + 元 元 (10.85) 





Kial Kig + 103) Ka (Ki 6 十 10K 3) 
* 16 * 432 


用 式 (10.76) 和 式 (10.85) 代 入 式 (10.75)， 我 们 得 到 目前 问题 的 Kullback-Leibler HUE : 
Di(W) =- h(X) - log | det(W) | + 了 log(2re) 





>> ( K3 Ka (kis + 1063) 
一 12 t 48 * 1440 


3 2 
一 g KiKi 





(10.86) 
Koa (Kis + 10c 3 ) Ko (Kj. + 10ki ) 
24 ~ 24 
Kia(Kis + 103) Kg (kis + 10¢.3)") 
7 64 7167 432 








其 中 累积 量 都 是 权 值 矩阵 W WRR 
激活 函数 


为 了 计算 (10.86) 中 Kullback-Leibler 散 度 ,我们 需要 一 个 计算 观测 向 量 XX 的 高 阶 累计 量 
的 自 适 应 过 程 。 问 题 是 我 们 如 何 进 行 这 些 计算 ? 记 住 导出 式 (10.86) 近 似 公式 的 方法 。 它 的 
导出 是 通过 Gram-Charlier 级 数 展开 得 到 的 ， 而 且 假 设 Y 是 零 均 值 和 方差 为 1 的 随机 变量 。 
零 均值 的 假设 是 因为 以 前 我 们 假定 源 信号 为 零 均值 的 。 至 于 方差 为 1 的 假设 ， 要 用 到 以 下 两 
种 方法 中 的 一 种 进行 处 理 : 

1. 约束 方法 。 在 这 种 方法 中 ， 单 位 方差 的 假设 用 于 计算 对 所 有 i 的 高 阶 累 积 量 k, Kia 
和 ki5(Amari,1996)。 不 幸 的 是 我 们 不 能 保证 在 计算 过 程 中 OY, 的 方差 ( 即 of AHR, RE 
是 1 了。 从 式 (10.81) 和 (10.82) 的 定义 中 注意 ka ki 的 估计 依赖 于 = mip. 假设 or = 1， 
则 导出 ca ki 的 估计 有 极 大 偏差 ， 这 将 引起 它们 和 «; ;估计 之 间 的 错误 关系 。 

2. 无 约束 方法 。 在 这 种 代替 方法 中 ,方差 o 被 看 作 是 一 个 未 知 的 时 变 参 数 ， 这 也 是 与 
实际 情况 相符 的 (Madhuranath and Haykin,1998)。 方 差 与 1 的 偏离 可 以 看 作 随 机 变量 了 的 
一 个 比例 变化 。 重 要 的 是 ， 导 出 的 kafi “is 的 估计 考虑 到 了 of 是 随时 间 变 换 的 。 在 式 
(10.86) 中 的 所 有 3 个 高 阶 累积 量 的 估计 还 维持 正确 的 关系 。 

在 Madhuranath and Haykin(1998) 所 作 的 言 源 分 离 实验 的 研究 报告 表明 ， 无 约束 方法 产生 
的 结果 比 约束 方法 的 要 好 。 在 后 面 的 讨论 中 我 们 使 用 无 约束 方法 。 

为 了 找到 计算 W 的 一 个 学 习 算 法 ， 我 们 要 求 式 (10.86) 对 W 的 微分 ， 从 而 对 算法 形成 
一 个 合适 的 激活 函数 。 

令 Ay RAR W 的 ik RFK. MH det(W) 按 i 行进 行 拉 普 拉 斯 展开 ， 可 以 写成 (Wylie 
and Barrett, 1982) 


det(W) = >) wsz, i = 1,2,°+,m (10.87) 
k=1 
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其 中 w, EERE W 的 (i,%) 元 素 。 因 此 det(W) 对 wj 求 微 分 ， 得 到 
9 1 9 Ag -T 
Juw, te detCW)) = det(W) Jw, dt W) = det(W) = (W da (10.88) 


其 中 W- "是 转 置 矩 阵 W 的 道 。 在 式 (10.86) 中 其 他 项 (依赖 于 WT wi 求 偏 微分 得 到 (参见 
式 (10.80) 至 式 (10.82) ) 


ki3 
Iwg 





= 3E[ YX, | 


OKi4 


O Wy 





= 4E[ YX, ] - 12m;  ELY,;X,] 


9 
Fw, Kis + 1063) = 6E[ YiXi] - 30m; EL YX, ] 


— 60m, , E| YSX,] + 180m?, EL YX, ] 
为 了 推导 一 个 自 适应 算法 ， 常 用 的 方法 是 将 期 望 用 它们 的 瞬时 值 代替 。 因 此 在 这 三 个 等 式 中 
做 如 上 的 替换 ， 我 们 得 到 下 面 的 近似 结果 : 











了 ~ 373 (10.89) 
OKi 4 3 
aw, “T By ix, (10.90) 
Fo, (hi + 10.3) ~ yx (10.91) 
在 式 (10.86) 的 表达 式 中 对 wx 的 导数 用 式 (10.88) 至 式 (10.91) 替 代 ， 得 到 
JeDa; (W) ~- (W")a + p(y) x (10.92) 
其 中 的 oC 刀 ) 是 学 习 算 法 的 一 个 非 单调 激活 函数 ， 定 义 为 (Madhuranath and Haykin, 1998) 
ely) = sy + ey! + Ry? + 2y! - ye + 128y? — S12 yy (10.93) 


图 10.11 画 出 eX y( -1<y<1) 的 图 形 。 图 中 包括 分 离 器 输出 y; 的 取 值 范围 ， 这 也 是 
学 习 算法 通常 限制 的 范围 。 值 得 注意 的 是 激活 函数 的 斜率 在 ( - 0.734，0.734) 之 间 为 正 的 ; 
如 同 本 节 后 面 讨论 的 那样 这 是 使 算法 稳定 所 必需 的 。 


ICA 学 习 算 法 
学 习 算 法 的 目的 就 是 最 小 化 概率 密度 函数 Y AA Y, c=1, 2, --, m 之 间 的 
Kullback-Leibler 散 度 。 这 个 最 小 化 可 以 运用 梯度 下 降 法 实现 ， 此 时 权 值 wa 的 调整 定义 为 
9 
Awi =- 155 Pris 
= (CW) a - Cy) mm) (10.94) 
其 中 了 是 学 习 率 参数 。 


将 (10.94) 扩 展 到 分 离 器 的 整个 权 值 矩 阵 W， 我 们 可 以 把 适用 于 W 调整 的 AW 表示 为 
AW = (W7 -9(7)x ) (10.95) 
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-一 一 一 一 | 一 L. 一 上 -一 上 p 一 一 - L -一 上 一 一 此 


-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1 





图 10-11 式 (10.93) 的 激活 函数 p(y) 
其 中 x 是 m x 1 观测 向 量 x MB, HA 


oly) = Lely), ely), el ¥m 1? (10.96) 
在 式 (10.95) 给 出 的 AW 的 公式 中 ， 注 意 到 
y” = x WI 
我 们 可 以 将 式 (10.95) 改 写成 等 价 形式 
AW = 了 LI- DT W IWT = nT- 9(y)y JW (10.97) 
FP ERMER, BE A AR RIAW 
Wn +1) = Win) +n) lE- @ly(n))y"(n) JW" Cn) (10.98) 
其 中 参数 都 是 以 它们 的 时 变形 式 给 出 。 


等 变化 性 质 


育 源 分 离 算法 的 目的 是 更 新 分 离 矩阵 W(n)， 以 使 输出 向 量 
y(n) = W(n)x(n) = W(n)Au(n) 
在 统计 意义 下 能 够 尽 可 能 与 初始 源 信 和 号 接近 。 具 体 地 ， 假 设 一 个 全 局 系统 表征 矩阵 C(n) 是 
混合 矩阵 A 和 分 离 矩 阵 W(n) 的 乘积 : 
C(n) = W(n)A (10.99) 
理想 情况 下 ， 这 个 全 局 系统 应 该 满足 两 个 条 件 : 
1. 负责 调整 C(z) 的 算法 收敛 到 一 个 等 于 置换 矩阵 的 最 优 值 。 
2. 算法 本 身 可 以 写成 
C(n +1) = Cn)+TnGCCCO)aCn))C(P) (10.100) 
KP G(C(n)u(n) dE C(n) un) AS eK, RIKER SEA ASS Clin) RE, m 
不 是 由 混合 矩阵 A AI BE W(n) 单 独 决定 。 这 样 的 自 适应 性 系统 就 称 为 等 变化 的 
(Cardoso and Laheld, 1996), 
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式 (10.98) 的 自 适 应 算法 当然 能 够 近似 满足 第 一 个 条 件 。 但 是 ， 正 如 它 所 表示 的 ， 第 二 
个 条 件 不 能 满足 。 为 了 说 明 这 个 问题 ， 我 们 可 以 将 式 (10.98) 重 写成 等 价 形式 
C(n +1) = Cn)+nmn)GCOCCn)un))W (nA (10. 101) 
其 中 
G(C(n)u(n)) = I- e(C(n)u(n))(C(n)u(n))" (10. 102) 
式 (10.98) 的 算法 不 能 满足 式 (10.100) 所 描述 的 等 变化 条 件 ， 因 为 向 量 值 函 数 G(C(n)u(n)) 
后 乘 以 W-"(n)A， 在 一 般 的 条 件 下 其 值 不 等 于 C(n)。 我 们 可 以 在 他 们 之 间 插 入 一 个 矩阵 
W'(n)W(n) REE. SW" W 由 W 和 其 转 置 组 成 ， 总 是 正定 的 。 这 也 是 为 什么 乘 以 WW 
后 不 改变 学 习 算法 的 最 小 值 符 号 的 原因 。 
重要 的 问题 是 : 为 了 达到 等 变化 条 件 所 做 的 调整 含义 是 什么 ? 问题 的 答案 就 在 于 在 参数 
空间 中 梯度 下 降 是 如 何 形成 的 。 理 想 情况 下 ， 我 们 应 该 用 目标 函数 Dj ,(W) 的 自然 梯度 "1， 
利用 通常 梯度 VD ;定义 为 
VD (W) = (VD CW) WW (10.103) 
通常 梯度 VDy1; 由 (10.92) 定 义 。 在 隐 含 的 意义 下 ， 梯 度 VD,y;(W) 仅 当 参 数 空间 W = |W E 
采用 正 交 坐标 系 的 欧 几 里 德 空间 时 为 最 优 下 降 方向 。 在 神经 网 络 的 典型 情况 中 ， 参 数 空间 W 
是 在 非 正 交 坐标 系 中 的 。 自 然 梯度 V'D/ji ;(W) 在 后 一 种 情况 下 会 产生 最 速 下 降 ， 所 以 在 构成 
盲 源 分 离 问 题 的 随机 算法 时 采用 它 蔡 代 通常 梯度 。 为 了 使 自然 梯度 空间 可 定义 ， 必 须 满足 两 
个 条 件 : 
1. 参数 空间 W 是 黎 曙 空间" 。 黎 曼 结 构 是 一 个 具有 正定 度量 W 的 微分 流 形 。 
2. ERE W 是 非 奇 蜡 的 ( 即 可 逆 的 )。 
当前 的 问题 对 两 个 条 件 都 满足 。 
以 这 种 方式 改写 式 (10.98) 的 算法 ， 我们 可 以 写 为 
Wn +1) = Wn) + Wn) p(y(n))y (Win) W Cn))W Cn) 
= Wn) + MAT- ply(n))y (n)]W(n) (10, 104) 
这 导致 育 源 分 离 具 有 等 方差 (equivariance) 性 质 。 图 10-12 画 出 式 (10.104) 的 信号 流 图 。 
为 了 使 式 (10.104) 所 描述 的 自 适 应 算法 对 图 10-9 所 描述 的 盲 源 分 离 问 题 得 到 正确 结果 ， 
输出 向 量 Y 的 所 有 分 量 必须 满足 下 列 两 个 要 求 : 
。 用 于 计算 非 线 性 (+) A) Gram-Charlier 展开 要 包括 足够 多 的 项 以 便 对 边缘 炉 h( 了, ) 产 
生 尽 可 能 好 的 逼近 ; 例如 ， 式 (10.93) 的 激活 函数 可 以 满足 这 个 要 求 。 
。 学 习 率 1 应 足够 的 小 ， 使 得 Y, 的 累积 量 估计 可 靠 。 


稳定 性 分 析 


不 对 式 (10.104) 所 描述 的 自 适 应 算法 进行 稳定 性 分 析 ， 言 源 分 离 问 题 的 讨论 是 不 完全 
的 。 在 Amari et al.(1997)， 对 任何 激活 函数 8( ') 给 出 这 个 算法 的 一 般 性 的 稳定 性 分 析 。 在 算 
法 渐进 收敛 于 一 个 希望 的 平衡 点 的 意义 下 进行 分 析 ， 在 希望 的 平衡 点 盲 源 的 成 功 分 离 是 有 保 
证 的 。 

式 (10.104) 是 基于 自然 梯度 的 育 源 分 离 算法 的 离散 时 间 描 述 。 为 了 稳定 性 分 析 ， 算法 改 
为 连续 时 间 的 形式 
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W(n +1) 





Æ 10-12 式 (10.104) 描 述 的 盲 源 分 离 学 习 算 法 的 信和 号 流 图 


W(t) = HLT- p(y(1))y ATWO) (10.105) 
其 中 1 表示 时 间 ，W(1) = 9W(1)/31。 对 所 有 t, 学习 率 mt) 总 是 正 的 。 令 
a = E[yi] (10.106) 
kı = [S22 (10. 107) 
a = Fly “ex (10.108) 


从 而 ， 根 据 Amari et al.(1997) ， 对 任意 的 激活 函数 p(* )， 分 离 解 是 式 (10.104) 的 自 适 应 性 算 
法 的 稳定 平衡 点 的 充分 必要 条 件 ， 是 对 所 有 的 (i,j ),izj ， 有 


gs+1>0 (10.109) 
ki > 0 (10.110) 
All oioikk; > 1 (10.111) 


收敛 性 因素 
假设 满足 了 从 式 (10.109) 到 式 (10.111) 的 稳定 性 要 求 ， 我 们 能 够 对 基于 式 (10.93) 的 激活 
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函数 的 式 (10.104) 的 学 习 算 法 的 收敛 行为 说 些 什 么 ”根据 Madhuranath and Haykin( 1998) PTFE 
的 实验 的 研究 报告 ， 粗略 地 讲 ， 我 们 可 以 说 收敛 过 程 有 两 个 阶段 : 
。 阶段 ]， 经 过 一 段 时 间 的 调整 后 ， 分 离 器 输出 的 随机 变量 了 的 方差 ao(n) 能 够 达到 
一 个 相当 稳定 的 值 。 在 这 个 阶段 ， 累 积 量 k,;，ki 和 ki 基本 保持 稳定 。 
。 阶段 下 ， 经 过 一 段 时 间 调整 后 累积 量 ca, kaf kis 达 到 一 个 相当 的 稳定 值 。 在 这 一 
点 上 ， 我 们 可 以 说 算法 已 经 收敛 。 
因此 看 起 来 分 离 器 输出 的 方差 和 高 阶 累 积 量 的 估计 值 提供 用 于 研究 式 (10.104) 的 学 习 算 
法 收敛 行为 的 合理 程序 的 基础 。 注 意 这 样 一 点 是 有 趣 的 ， 即 只 在 阶段 工 ， 算 法 才 与 Gram- 
Charlier 展开 式 一 致 。 


10.12 计算 机 实验 


假设 图 10-9 所 描述 的 系统 包括 以 下 三 个 独立 的 源 : 
u,(n) =0.1sin(4007)cos(30n) 
u,(n) =0.01sgn(sin(500n + 9cos(40n) )) 
u(n) = WR pe - 1，1] 的 区 间 内 
混合 矩阵 AA 
0.56 0.79 -0.37 
A= |- 0.75 0.65 oa 
0.17 0.32 -0.48 
信号 源 的 波形 在 图 10-13 左边 显示 。 | 
对 于 分 离 器 ， 我 们 用 式 (10.104) 描 述 更 新 规则 的 批 处 理 形式 ; 参见 习题 10.14。 选 择 批 
处 理 的 基本 原因 是 提高 收敛 性 。 利 用 以 下 条 件 实现 算法 : 
。 初始 化 : 为 了 对 算法 初始 化 ， 分 离 矩 阵 W 的 权 值 用 一 个 在 50.0,0.05] 区 间 内 均匀 分 
布 的 随机 数 产 生 器 选取 。 
FIA: 学 习 率 固定 在 y= 0.1。 
。 信号 持续 时 间 : 在 混合 器 的 输出 端 产 生 的 时 间 序 列 的 采样 周期 为 10“* 秒 ,包含 N= 
65 000 个 样本 组 成 。 
图 10-13 的 右边 画 出 经 过 300 次 迭代 后 分 离 器 的 输出 端 产生 的 信号 波形 。 除 了 未 知 源 输 


出 的 比 列 和 置换 ， 图 10-13 中 左边 的 波形 与 右边 的 波形 没有 明显 的 差别 。 得 到 这 里 结果 算法 
初始 化 权 年 阵 是 


0.0109 0.0340 0.0260 
W(0) = oo 0.0467 Dons 
0.0339 0.0192 0.0017 

算法 收敛 到 最 后 权 值 矩阵 


- 10.1932 — 9.8141 -9.7259 


0.2222 0.0294 — 0.6213 
W= 
4.1191 ~ 1.7879 - 6.3765 


相应 的 矩阵 积 WA 的 值 为 
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图 10-13 ”左边 的 波形 : 原来 的 源 信号 ”右边 的 波形 : 分 离 后 的 源 信 号 
— 0.0032 - 0.0041 0.2413 
— 0.0010 - 17.5441 —- 0.0002 
2.5636 0.0515 -— 0.0009 
重新 调整 矩阵 积 的 项 使 得 输出 信和 号 与 输入 信号 的 顺序 相同 ， 我 们 可 写 为 
2.5636 0.0515 -— 0.0009 
| | 


WA = 








-0.0010 - 17.5441 - 0.0002 
-0.0032 -0.0041 0.2413 
矩阵 积 的 第 一 、 二 、 三 列 分 别 对 应 信和 号 的 幅度 调制 信号 、 频 率 调制 截止 (clipped) 信 号 和 躁 
声 。WA 中 的 对 角 元 素 定义 图 10-13 中 右边 输出 波形 与 图 10-13 左边 初始 信 源 波形 之 间 的 比 
例 系数 。 
为 了 定量 评价 分 离 器 的 性 能 ， 我 们 可 以 定义 一 个 全 局 拒绝 指标 (Amatri et all. ,1996 ) : 
mf ey | Py | {ee lpy! 
s- DD BB agri | 
其 中 P= {pi = WA。 人 性 能 指标 49 是 矩阵 卫 对 角 化 的 量度 。 如 果 卫 完全 对 角 化 ， MWS =0. 
对 于 那些 元 素 不 是 集中 在 主 对 角 线 的 矩阵 PP， 其 性 能 指数 将 很 高 。 
在 图 10-13 中 显示 的 波形 ，5 = 0.0606。 


10.13 最 大 似 然 估计 
前 面 一 节 所 讨论 的 独立 分 量 分 析 的 方法 ( 即 最 大 互信 息 的 第 三 种 变 体 ) 只 是 诸多 盲 源 分 离 
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方法 中 的 一 种 。 但 在 信息 论 背 景 中 ， 也 仅 有 其 他 两 种 方法 能 够 以 无 监督 方式 解决 源 分 离 问 
题 : 最 大 似 然 法 和 最 大 焙 法 。 在 这 一 节 中 我 们 讨论 最 大 似 然 法 。 
最 大 似 然 法 是 一 个 统计 估计 的 常用 过 程 ， 具 有 一 些 良好 的 性 质 ; 参见 第 7 章 注释 所 。 在 
这 个 过 程 中 ,我们 首先 建立 对 数 似 然 函 数 ， 然 后 根据 考虑 的 概率 模型 的 参数 向 量 对 它 进行 最 
优化 。 从 第 7 章 的 讨论 中 ， 我 们 知道 似 然 函数 是 一 个 给 定 模 型 中 的 数据 集 的 概率 密度 函数 ， 
但 是 只 是 作为 模型 未 知 参 数 的 一 个 函数 。 根 据 图 10-9, S fu(: ) 表 示 随 机 源 向 量 U 的 概率 密 
度 函 数 。 那 么 在 混合 器 输出 端的 观测 向 量 X= AU 的 概率 密度 函数 定义 为 (Papoulis,1984) 
fx(x,A) = | det(A) 1 fy(A7'x) (10.112) 
其 中 det(A) 是 混合 矩阵 A 的 行列 式 。 令 9 = {xi a ARMELE XN 次 独立 实现 。 于 是 
可 以 写成 
fx(F,A) = TLC, A) (10.113) 
我 们 发 现 用 归 一 化 ( 除 以 样本 数目 NAA E, 表示 为 


+ logfs(T ,A) = 4 Yosh ,A) 


= + D7 logfo (Ax) — log | det(A) | 
令 y=A-'x 为 分 离 器 输出 端的 随机 向 量 Y 的 一 个 实现 ， 这 样 可 写成 
+logfx(T ,A) = 1 S}logfy(y,) — log | det(A) | (10.114) 
令 A "=W 且 fy(y,W) 表 示 以 W 为 参数 的 Y 的 概率 密度 函数 。 注 意 式 (10.114) 中 的 求 和 是 
logfo (y ) 的 样本 平均 值 。 从 大 数 定律 发 现 ， 当 N 趋 于 无 穷 ， 
LOW) = lim 1 ST ogfe(y,) + log | det(W) | 
= E[logfu(y;)] + log | det(W) | (10, 115) 
= | _A(y, Wlogfoly) dy + log | det(W) | 


以 概率 1 成 立 ， 其 中 第 二 等 式 是 关于 YY 求 期 望 。 量 L(W) 的 值 是 希望 的 对 数 似 然 函 数 。 利 用 
写法 


fol) = (2) A.W) 


我 们 可 以 将 L(W) 表 示 为 等 价 形式 


L(W) = | f(y, Wol cow) dy + | f(y, Wlogf(y,W) dy + log | det(W) | 


=- D iA T h(Y,W) + log | det(W) | (10.116) 
其 中 h(Y,W) 是 由 W 参数 化 的 随机 向 量 Y BOM, 而 Dain 是 fy(y,W ) 和 fu(y) 之 间 的 


Kullback-Leibler 散 度 。 将 式 (10.76) 代 入 式 (10.116)， 可 将 对 数 似 然 函 数 LW AER 
(Cardoso, 1998a ) 








L(W) =- Dy ip, - h(X) (10.117) 
其 中 h(X) 是 分 离 器 输入 端的 随机 向 量 X 的 微分 粹 。 在 式 (10.117) 中 ， 惟 一 依赖 于 分 高 器 的 
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权 值 向 量 W 的 是 Kullback-Leibler 散 度 Dy, igo 因此 从 式 (10.117) 可 以 得 到 如 下 结论 : 最 大 化 
对 数 似 然 函 数 就 等 于 最 小 化 Kullback-Leibler 散 度 D., ; ， 即 使 分 离 器 的 输出 Y 的 概率 分 布 与 
初始 源 向 量 U 的 概率 分 布匹 配 。 
最 大 似 然 估计 与 独立 分 量 分 析 之 间 的 关系 

对 目前 问题 应 用 式 (10.45) 所 描述 的 Pythagoras 分 解 ， 可 以 将 Kullback-Leibler 散 度 Dy 


表示 为 极 大 似 然 
Drin = Py ity + Pils (10.118) 


上 式 右边 的 第 一 个 Kullback-Leibler BUR D, yp, 是 表征 独立 分 量 分 析 方法 的 结构 失 配 的 度量 ， 
第 二 个 Kullback-Leibler BUE D; p 是 描述 初始 源 向 量 U 的 分 布 和 分 离 器 输出 Y 的 边缘 分 布 之 
闻 的 边缘 失 配 的 度量 。 因 此 可 以 将 用 于 最 大 似 然 的 全 局 分 布匹 配 准 则 表达 如 下 (Amari,1997; 


Cardoso, 1998a) : 
总 失 配 = 结构 失 配 + 边缘 失 配 (10.119) 


“结构 失 配 ”是 指 一 组 独立 变量 的 一 个 分 布 的 结构 ， 而 “边缘 失 配 ”是 指 各 边缘 分 布 之 间 的 
失 配 。 

在 理想 情况 下 ，W = A.'( 即 完全 育 源 分 离 ) 所 有 的 结构 失 配 和 边缘 失 配 都 为 0。 在 这 种 
情况 下 ， 最 大 似 然 与 独立 分 量 分 析 产 生 完 全 相同 的 结果 ， 理 想 情 况 下 的 两 者 的 关系 描绘 在 图 
10-14 中 (Cardoso, 1996; Amari ,1997) 。 在 这 个 图 中 ， 9 是 分 离 器 输出 端 随机 向 量 了 的 所 有 概率 


概率 分 布 Aty) 的 全 集 


uly) 真实 源 分 布 


n 所 有 的 独立 分 布 





10-14 用 于 言 源 分 离 的 最 大 似 然 估计 与 独立 分 量 分 析 之 间 的 关系 示意 图 
最 大 似 然 最 小 化 D14。， 而 独立 分 量 分 析 最 小 化 Dy 1y 
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密度 的 函数 fy(y) 的 集合 ; 9 是 所 有 独立 的 概率 分 布 的 集合 ， 也 就 是 那些 乘积 形式 。y 和 5 都 
是 无 穷 维 的 。 集 9 = [fy(y, W)| 是 在 分 离 吕 的 输出 端 测量 得 到 的 概率 分 布 的 有 限 集 。 9 是 m 
维 的 ， 其 中 m 表示 Y 的 维 数 ， 权 值 向 量 W 是 其 中 的 一 个 坐标 系 。 从 图 10-14 中 ， 可 以 清楚 
看 出 Dpi 和 Dy 1 在 W=A-! 时 同时 取得 最 小 值 。 有 趣 的 是 集合 3 和 3 在 交点 处 正 交 ， 该 交 


点 由 真实 概率 密度 函数 fu(y) 所 定义 。 

对 于 一 个 基于 最 大 似 然 原 则 的 言 源 分 离 问 题 算法 必须 包括 对 固有 的 未 知 源 分 布 的 估计 ， 
而 这 些 源 分 布 通常 就 是 未 知 的 。 这 个 估计 的 参数 正如 调节 分 离 权 值 矩 阵 W 一 样 是 可 以 调节 
的 。 换 句 话 说， 我 们 应 该 进行 混合 矩阵 和 源 分 布 ( 一 些 特征 ) 的 联合 估计 (Cardoso, 1997, 
1998a) ， 这 种 联合 估计 的 一 种 巧妙 和 成 熟 的 方法 已 经 在 Pham et al.(1992,1997) 中 给 出 。 


10.14 RAMA 


用 有 最 大 炳 方法 (maximum entropy method) 解 决 育 源 分 离 问 题 是 由 Bell and Sejnowski(1995) 提 
出 的 。 图 10-15 面 出 基于 这 种 方法 的 系统 方 框图 。 与 以 前 一 样 ， 分 离 器 对 观察 向 量 x 进行 操 
作 ， 产 生 输出 Y= WX， 它 是 初始 源 向 量 U 的 估计 。 向 量 Y 经 过 每 个 分 量 为 非 线性 的 变换 G 
(') 变 成 Z， 且 G(' ) 是 一 个 单调 可 首 函 数 。 因 此 ， 与 了 不同 ， 对 一 个 任意 大 的 分 离 器 Z 的 微 
分 炳 保证 都 是 有 界 的 。 对 于 给 定 的 非 线性 G(: ), 最 大 焙 方 法 通过 对 W 求 h(Z) 的 最 大 值 ， 
得 到 初始 源 向 量 U 的 一 个 估计 。 根 据 在 例 10.6 中 导出 的 式 (10.553) ， 我 们 看 到 最 大 焙 方 法 与 
最 大 互信 息 原则 是 紧密 相关 的 7 。 

非 线性 G 是 一 个 对 角 映 像 ， 表 达 为 


yi g1(71) Zi 
G: 7 > ev) _ É (10.120) 
Ym En Yn) Zm 
我 们 也 可 以 写成 
Z = G(Y) = G(WAU) (10.121) 
由 于 非 线 性 G(') 是 可 逆 的 ， 可 以 将 初始 源 向 量 U 利用 分 离 器 输出 向 量 Z 表示 成 
U = A'W'G'(Z) = WZ) (10.122) 
其 中 G 是 一 个 非 线性 的 逆 : 
21 gi (z) Yı 
G`’; ý 一 e: (a) = ” (10.123) 
Zm goa (an) Ym 
输出 向 量 Z 的 概率 密度 函数 利用 源 向 量 U 的 概率 密度 函数 定义 为 (Papoulis , 1984) 
fala) = LW (10.124) 


| det( J(u) ) | n= ¥(Z) 
其 中 det(J(ua)) 是 Jacobi 矩阵 J(u) MAW, Ju) j THE MMF: 
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图 10-15 ATF RRO RBHRARTRAHEA 
Hu, x, y 和 z 分别 是 随机 向 量 U，X, YA ZH 


J; = oa (10.125) 
所 以 非 线性 G 的 输出 端的 随机 向 量 ZHI 
h(D) = ~ ELlogfs(2)] =~ [lee Ta) 
= - Dy i ices 在 u = W(z) 处 求 值 (10.126) 


因此 可 以 看 出 求 h(Z) 的 最 大 值 等 价 于 求 fu(u) 和 由 1det(J(u))1 定 义 的 器 的 概率 密度 函数 之 
间 的 Kullback-Leibler 散 度 的 最 大 值 。 

假设 对 所 有 的 i， 随机 变量 Z,( 即 Z 的 第 i 个 元 素 ) 在 [0,1] 上 均匀 分 布 。 根 据 例 10.1, 
BRAS h(Z) 为 0。 相 应 地 ， 从 式 (10.126) 得 到 


folu) = | det(J(u)) | (10.127) 
在 理想 情况 W = A '! 时 ， 这 种 关系 化 简 为 
fu Cui) = se 对 所 有 的 i (10.128) 
ila = glu) 





相反 ， 如 果 式 (10.128) 满 足 ， 则 最 大 化 h(Z) 得 到 W = A ， 从 而 育 源 分 离 问 题 得 到 解决 。 
我 们 可 以 对 用 于 盲 源 分 离 的 最 大 炉 方 法 得 到 的 结果 概述 如 下 (Bell and Sejnowski, 1995) : 


如 图 10-15 所 示 ， 令 在 分 离 器 输出 的 非 线性 由 初始 源 分 布 定义 为 
z= gly) = F fulu)du i=1,2,.,m (10.129) 
最 大 化 在 非 线性 G 输出 端的 随机 向 量 乙 的 灶 等 价 于 WW=A- ， 这 将 产生 完全 的 讶 源 分 离 。 


对 所 有 的 i， 在 随机 变量 Z EKAL 1 EAHA, RAAT EAA 
方法 对 盲 源 分 离 问 题 是 等 价 的 (Cardoso,1997 )。 为 了 证 明 这 个 关系 ， 我 们 首先 利用 微分 的 链 
式 规则 将 式 (10.125) 改 写 为 等 价 形式 





9 Ayi Pm Sn a 
J; = 2 Jy, Jz, Ju = > Jy wade (10.130) 
Jacobi 矩阵 J 因此 可 以 表达 为 
J = DWA 
其 中 DD 是 对 角 和 矩阵 
l > 9zl 3z, GEM 
D = diag( Jy, Seo Fe 


所 以 
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m ad . 
| det(J) | = | det(WA) | T[ iy, (10.131) 
i=ł t 


对 于 由 权 值 矩阵 W 和 非 线性 函数 G Be HL AY AE ae RAR fu(u)， 根 据 式 (10.131),， 它 的 
估计 可 以 形式 地 表示 为 (Roth and Baram, 1996) 


folu | W,G) =| det(WA) | TI 2g (10.132) 
AER RIEF, HUA ETEMONA RAKAR h(Z) 等 价 于 最 大 化 对 数 似 然 函 数 logf 
(ul1W,G)。 也 即 是 说 ， 最 大 炳 方法 与 最 大 似 然 方 法 是 等 价 的 。 
言 源 分 离 的 学 习 算 法 


考虑 到 (10.126) 的 第 二 个 等 式 ， 注意 到 由 于 源 ( 信 和 号) 的 分 布 通常 是 固定 的 ， 最 大 化 粹 h 
(DERIT W 求 分 母 项 jogldet(J(o))1 的 期 望 的 最 大 值 。 我 们 的 目标 是 求 一 个 自 适 应 算法 ， 
因此 可 以 考虑 瞬时 目标 函数 


® = log | det(J) | (10.133) 
将 式 (10.131) 代 人 式 (10.133) 得 到 
® = log | det(A) |+ log | det(W) |+ >} loa $2] (10. 134) 
所 以 对 分 离 器 的 权 值 矩 阵 W 求 @ 的 微分 得 到 (见习 题 10.16) 
2- =W"+ > jlog( 37 “i z) (10.135) 


为 了 进一步 处 理 这 个 公式 ， 必须 说 明 由 分 亢 器 病人 的 非 线性 G(':)。 这 里 可 以 使 用 的 非 线性 
的 简单 形式 为 logistic 函数 


1 . 
Zi = ely) 一 1 + evi t= 1,2, sm (10. 136) 


图 10-16 Ei H 1% PRR AL I PY PR, RS PA RFE logistic 函数 满足 盲 源 分 离 的 单调 性 和 
BY BPE AY EAS BEOR , KRO. 136) RASC. 135) 44.5) 
a® 
aw = 
其 中 x 是 接收 信号 ，z 是 分 离 器 的 输出 向 量 经 非 线性 变化 后 的 输出 。1 是 分 量 都 为 1 的 向 量 。 
学 习 算 法 的 目的 就 是 最 大 化 炉 h(Z)。 因 此 采用 最 速 下 降 法 ,应 用 于 权 值 矩阵 W 的 变化 


可 表示 为 (Bell and Sejnowski, 1995) 

AW = 1 So = NW + (1- 2z)x7) (10.137) 
其 中 是 学 习 率 参数 。 与 独立 分 量 分 析 相 类 似 ， 可 以 利用 自然 梯度 消除 对 转 置 权 值 矩阵 WwW 
求 首 的 要 求 ， 这 等 价 于 对 (10.137) 乘 以 矩阵 积 W7W。 这 个 最 优 调整 产生 权 值 变化 所 希望 的 
公式 为 


= W" + (1- 22)x’ 


AW=TW + (1 - 2z)x")W'W = q0 + (1 -272)(Wx)’)W 
= q + (1 - 2z)y7)W (10. 138) 
其 中 y 是 分 离 器 的 输出 。 所 以 计算 权 值 矩阵 W 的 学 习 算 法 可 以 表示 为 
Win+1) = Wn) + + (1 - 22(n))y"(n)) Wn) (10. 139) 
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图 10-16 


a) logistic BAK: z; =e) =r b)logistic 函数 的 道 : y; = g7'(z;) 


算法 的 初 值 W(0) 选 取 一 组 均匀 分 布 的 小 数值 。 

理论 考虑 和 实验 观测 都 表明 ， 式 (10.139) 的 学 习 算 法 局 限于 分 离 超 Gauss 分 布 的 源 (Bell 
and Sejnowski, 1995); 超 Gauss 分 布 的 定义 参见 注释 "中 。 这 个 局 限 是 在 图 10- 15 中 系统 后 端的 
非 线性 采用 了 logistic 函数 的 直接 结果 。 特 别 ，logistic 函数 对 源 分 布 加 上 先 验 知识 ， 即 一 个 超 
Gauss É. BÆ, RART AREE logistic 函数 和 最 大 似 然 方法 限制 某 些 固定 先 验 知识 并 
没有 特别 不 同 之 处 。 通 过 修改 式 (10.138) 的 学 习 算 法 使 之 提供 固有 信 源 分 布 和 混合 矩阵 的 估 
计 ， 可 以 将 最 大 焙 法 应 用 到 更 广泛 的 源 分 布 范围 。 这 个 要 求 同 前 一 节 讨 论 的 最 大 似 然 法 有 相 
似 的 性 质 。 


10.15 小 结 和 讨论 


在 本 章 中 ， 我 们 根据 Shannon 信息 论 模 型 ， 建 立 互信 息 作为 自 组 织 的 基本 统计 工具 。 由 
于 输入 过 程 与 输出 过 程 之 间 的 互信 息 有 一 些 独 特 的 性 质 ， 所 以 可 以 将 其 作为 自 组 织 学 习 的 最 
优化 的 目标 函数 。 实 际 上 ， 一 些 重要 的 自 组 织 原 则 已 经 出 现在 本 章 的 讨论 中 : 
。 最 大 互信 息 原则 ， 归 功 于 Linsker(1988)。 这 个 原则 的 基本 形式 非常 适合 建立 自 组 织 
模型 和 特征 映射 。 
。 最 大 互信 息 的 第 一 种 变 体 ， 归 功 于 Becker and Hinton( 1992), EASA MRL, E 
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标 是 发 现 带 噪声 传 感 的 输入 在 时 间 和 空间 上 表现 的 相干 性 。 

。 最 大 互信 息 的 第 二 种 变 体 ， 归 功 于 Ukrainec and Haykin(1992)， 在 对 偶 图 像 处 理 得 到 
应 用 ， 对 不 同 的 两 幅 环境 图 像 的 相应 区 域 中 ， 目 标 是 求 出 最 大 的 空间 差异 。 

。 最 大 互信 息 的 第 三 种 变形 ， 用 于 独立 分 量 分 析 ， 归 功 于 Comon(1994) ， 昌 然 它 的 基 
础 可 以 追溯 到 Barlow 假设 (Barlow,1985,1989)。 但 是 ， 在 Comon(1994) 首 次 提出 了 独 
立 分 量 分 析 的 严格 形式 。 

。 KAMA HK, JAIN Bell and Sejnowski(1995), HESRAKE RIA. BK 
与 最 大 似 然 是 等 价 的 (Cardoso,1997) 。 

最 大 炳 方法 和 独立 分 量 分 析 提 供 两 种 可 供 选 择 的 盲 源 分 离 的 方法 ， 并 且 分 别 有 自 己 的 性 
质 。 以 最 硕 原则 为 基础 的 盲 源 分 离 算 法 实现 简单 ， 而 建立 在 独立 分 量 分 析 基 础 上 的 相应 算 
法 在 推导 上 更 复杂 ， 但 也 许 有 更 广泛 的 应 用 。 

在 言 源 分 离 中 经 常 引 用 的 神经 生物 机 制 是 鸡尾酒 会 (cocktail party ) 现 象 。 这 种 现象 是 指 人 的 
一 种 显著 能 力 ， 能 够 在 嘲 杂 的 环境 中 选择 性 地 集中 并 跟踪 感 兴 趣 的 听觉 输入 。 如 同 第 2 章 介绍 
的 一 样 ， 对 于 这 个 非常 困难 的 信号 处 理 问 题 的 解 涉及 的 潜在 生物 神经 模型 比 图 10-9 所 示 的 理想 
模型 复杂 得 多 。 神 经 生物 模型 包括 时 间 和 空间 处 理 形式 ， 这 是 处 理 未 知 的 延迟 、 反 射 和 噪声 所 
必需 的 。 现 在 我 们 已 经 对 标准 的 盲 源 分 离 问 题 的 神经 解 所 涉及 的 基本 问题 有 了 一 个 合理 的 确定 
理解 ， 也 许 现在 我 们 应 该 转移 并 且 解 决 在 规模 上 可 以 与 鸡尾酒 会 相似 的 现实 问题 。 

男 一 个 值得 仔细 注意 的 公开 研究 领域 是 育 反 卷 积 (blind deconvolution)。 反 卷 积 是 一 种 信 
号 处 理 操 作 ， 它 理想 地 揭示 线性 时 不 变 系统 对 输入 信号 所 完成 的 卷 积 效果 。 更 具体 地 ， 在 通 
常 反 卷 积 中 输出 信号 和 系统 的 参数 都 是 已 知 的 ， 要 求 重建 输入 信号 ; 在 育 反 卷 积 中 ,或 者 用 
更 精确 术语 无 监督 反 卷 积 ， 仅 有 输出 信和 号 是 已 知 的 并 且 还 有 可 能 知道 源 的 统计 信息 ; 要 求 求 
得 输入 信号 和 系统 ， 或 两 者 都 要 求 得 到 。 很 明显 ， 盲 反 卷 积 问题 是 比 一 般 的 反 卷 积 问题 困难 
得 多 的 信号 处 理 任务 ， 虽 然 言 反 卷 积 在 文献 中 得 到 了 相当 大 的 重视 (Haykin,1994a) ， 与 育 源 
分 离 问题 一 样 ， 我 们 对 用 信息 论 模 型 的 方法 来 解决 言 反 卷 积 问题 的 研究 还 处 在 初级 阶段 
(Douglas and Haykin,1997) 。 而 且 ， 在 诸如 移动 通信 通道 之 类 的 不 友好 信道 中 盲 平衡 (bind 
equajization) 的 代价 有 效 解 ， 和 鸡尾酒 会 问题 的 解 一 样 是 一 个 挑战 性 的 问题 。 

总 的 来 说 ， 讶 自 适 应 问题 ， 在 源 分 离 或 反 卷 积 的 环境 下 ， 要 达到 监督 学 习 那 样 的 成 熟 发 
展 阶段 还 需要 很 长 的 一 段 路 要 走 。 


注释 和 参考 文献 


[1] 想 进 一 步 了 解 信息 论 ， 请 参考 Cover and Thomas(1991) 的 书 ; 也 可 参考 Gray(1990) 的 书 。 
如 果 想 参考 信息 论 发 展 的 论文 集 (包括 1948 年 Shannon 的 经 典 论文 )， 可 见 Slepian 
(1973)。Shannon 的 论文 经 过 一 些小 的 改动 被 重 版 在 Shannon and Weaver(1949) 的 书 和 
Sloane and Wyner( 1993) 的 书 中 。 

想 对 在 神经 处 理 中 的 信息 论 原则 作 一 个 简短 的 回顾 ， 可 参考 Atick(1992)。 想 从 生物 的 
角度 来 理解 信息 论 方法 ， 可 参考 Yockey(1992)。 

[2] 不 要 把 Linsker 的 自 组织 最 大 互信 息 原 则 与 决策 系统 的 信息 内 容 保存 规则 相 混淆 ， 后 者 
是 在 第 7 章 简要 讨论 的 经 验 规则 。 

[3] 信息 论 与 感知 之 间 关系 的 文献 综述 可 以 参考 Linsker(1990c) 和 Atick(1992)。 
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[4] 


[5] 


[6] 
[7] 


[8] 


EEEH RE R B93 AE ET EO) 5 热力 学 中 的 焙 由 

H =- ks >}p.logp. 
定义 ( 见 第 11 章 )， 其 中 ke 是 Boltzman HM, p, 是 系统 处 于 状态 的 概率 。 除 了 系数 ko 
之 外 热力 学 中 的 箭 H 的 公式 与 我 们 在 (10.8) 给 出 得 箭 的 定义 在 数学 形式 上 是 一 致 的 。 
Shore and Johnson(1980) 中 证 明 在 如 下 意义 下 最 大 粹 原则 是 正确 的 : 
以 约束 形式 给 出 先 验 知识 ， 在 满足 这 些 约 束 的 分 布 中 根据 “ 相 容 性 公理 ”( consistency 
axioms) 能 够 选择 惟一 的 分 布 ; 这 个 惟一 的 分 布 由 最 大 化 箭 定义 。 
相 容 性 公理 有 四 部 分 ; 
1. 惟一 性 : 结果 必须 是 惟一 的 。 
IL. 不 变性 : 坐标 的 选择 应 当 不 影响 结果 。 
I. 系统 独立 性 : 无 论 用 不 同 密度 或 用 联合 密度 来 解释 独立 系统 的 独立 信息 应 该 是 无 
关 紧 要 的 。 
NV. 子 集 独立 性 : 无 论 用 分 离 的 条 件 密度 或 用 完整 的 系统 密度 来 处 理 独立 的 系统 状态 
子 集 应 该 是 无 关 紧 要 的 。 
Shore and Johnson( 1980) iE 8A AB XT iBY Kullback-Leibler 散 度 同样 满足 相 容 性 公理 。 
关于 Lagrange 乘 子 法 的 讨论 ， 参 考 Domy(1975) HH. 
项 I(X;Y)， 最 初 Shannon(1948) 用 来 指 信息 传输 率 。 今 天 ， 而 我 们 用 来 指 随机 变量 X 
和 了 之 间 的 互信 息 。 
为 了 证 明 式 (10.45) 的 分 解 ， 可 以 处 理 如 下 。 由 定义 我 们 有 
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用 B 表示 式 (1) 最 后 等 式 中 的 积分 ， 可 以 写成 
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“yf” fr (x ) fr (xi) 
= 5. (elf fr Ada) de, = = Sl, oe (x; “i ) dx; (2) 
在 上 面 最 后 的 等 式 中 用 了 式 (10.39) 的 定义 。 式 (2) 的 积分 是 Kullback-Leibler 散 度 ， 
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Di ip ,i=1,2,…,m。 为 了 把 8 表达 成 最 后 的 形式 ， 注意 函 数 fy (%) 下 面 的 面积 是 
1, 因此 可 写 为 te) 
B= D, Ii (x) ol as, ax 
TTA (a) (3) 


dx 三 D; I fy 
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其 中 在 第 一 个 等 式 利 用 定义 了 dx = dx,dx*”， 如 同 在 10.5 节 描 述 的 一 样 。 内 此 ， 将 (3) 
RACO), 我们 得 到 期 望 的 分 解 : 
Drs, = Driz + DRIA 

[9] Nadal and Parga(1994，1997) 也 讨论 最 大 互信 息 和 宛 余 减少 之 间 的 关系 ， 得 到 同样 的 结 
R: 神经 系统 的 输入 向 量 和 输出 向 量 之 间 的 互信 息 的 最 大 化 也 就 导致 数据 减少 。Hatt 
and van Hemmen(1998) 讨 论 视 网 膜 的 最 大 互信 息 过 滤器 的 实现 情况 。 结 果 表 明 ， 对 于 像 
视网膜 这 样 的 感觉 系统 所 产生 的 内 部 环境 表示 ， 宛 余 性 对 获得 噪声 鲁 棒 性 是 最 根本 的 。 

[10] Becker and Hinton(1992) 用 字母 六 .表示 最 大 互信 息 的 第 一 种 变 体 。 

[11] 在 Uttley(1970) 中 考虑 负 信息 通路 ,通过 最 优化 通路 中 输入 信号 与 输出 信号 之 间 的 互信 
息 的 负 值 。 结 果 表 明 ， 这 样 的 系统 在 调整 期 间 适 宜 变 成 输入 信号 集中 更 常 发 生 的 模式 
的 判别 器 。 这 种 模型 被 称 作 “informon”, 它 与 最 大 互信 息 的 第 二 种 变 体 有 松散 关系 。 

[12] 在 Ukrainec and Haykin(1996) 中 描述 的 系统 包括 一 个 后 探测 处 理 器 ， 它 利用 关于 反射 器 
沿 水 道 的 水 陆 边 界 位 置 的 先 验 知识 。 模 糊 处 理 器 结合 初始 探测 性 能 和 基于 视觉 的 边缘 
检测 器 的 输出 以 便 有 效 地 去 除 错误 警报 ， 从 而 得 到 系统 性 能 的 进一步 提高 。 

[13] 盲 源 分 离 问 题 可 追溯 至 Hérault, Jutten and Ans(1985) 的 启蒙 性 文章 。 对 盲 源 分 离 问 题 的 
历史 记载 ， 参 考 Nadal and Parga(1997); 这 篇 文章 也 强调 问题 的 神经 生物 侧面 。 强 调 固 
有 信号 处 理 原则 的 盲 源 分 离 问 题 的 深刻 综述 可 以 参考 Cardoso( 1998a)。 

[14] 概率 密度 函数 逼近 
(a)Gram-Charlier 展开 式 
令 随 机 变量 了 的 概率 密度 为 fy(y)，qpy(w) 是 它 的 特征 函数 。 根 据 定义 我 们 有 


grlo) = | fely) edy (1) 
其 中 j=v -1，w 是 实数 。 总 的 说 来 ， 除了 指数 形式 的 符号 改变 外 ， 特 征 函 数 py(o) 是 
概率 密度 函数 户 (y) 的 傅 里 叶 变换 。 一 般 意 义 上 ， 特 征 函 数 py(w) 是 一 个 复数 ， 它 的 实 
部 和 虚 部 对 所 有 是 有 限 的 。 如 果 随 机 变量 了 的 天 阶 矩 存在 ， 则 gy(w) 可 以 在 w=0 处 
REFRE RE 








œ (jw)* 
gy(w) = 1+ >) 7 m, (2) 


其 中 m BY k NE, 定义 为 




















37 m, = ELY] = | y'fey) dy (3) 
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式 (2) 的 导出 只 是 简单 地 将 式 (1) 中 的 指数 函数 用 其 展开 式 代 替 ， 交 换 求 和 与 积分 的 顺 
序 ， 并 利用 式 (3)。 如 果 特 征 函 数 能 展开 为 式 (2) 的 形式 ， 我 们 可 以 将 py(o) 的 对 数 展开 
为 (Wilks,1962) 


logpy(o) = Co) (4) 


其 中 x, 是 随机 变量 了 的 m 阶 累积 量 或 半 不 变量 (semi- invariant). 70 (4) Æ H logpy (ww) 在 
w= 0 处 的 关于 jw 的 Taylor 展开 式 得 到 。 

为 了 简化 问题 ， 我 们 作 如 下 两 个 假设 : 

1. 随机 变量 了 的 均值 为 0， 即 y=0。 

2.Y 的 方差 是 归 一 化 的 ， 即 @ = 1。 

相应 地 ， 有 k =0, = 1， 而 式 (4) 的 展开 式 变 成 


logpr(o) = Go)? + D) Go) (5) 
现在 令 
r(w) = 2 ni ie)" 
可 以 将 式 (5) 重 写成 


logpr(w) = (jw)? + rw) 
也 就 是 说 ， 特 征 函 数 可 以 表示 成 两 个 指数 函数 相 乘 的 形式 ; 





gy(w) = exp( - “| * exp(r(w)) (6) 
将 exp(r(w) ) EFF FER BCE Bl 
exp(r(w)) = =i+ > 7 Lo) (7) 


KAORARO, ESLER AU ia) HOMES, 得 到 pyr(w) 展 开 式 的 新 系数 ， 
Ky K4 
c = Oe, = 0,0 = Goes = 545s = ix 


ce = aap lhe + 10), e, = aR (ie + 35k) es = ggl + Sós + 3510) 
等 等 。 现 在 可 以 用 py(w) 的 逆 傅 里 叶 变 换 求 概率 密度 函数 的 展开 式 f(y)。 特 别 可 以 写 
成 


fol) = al y(1 + > ey) (8) 
其 中 的 a(y) 是 零 均 值 和 单位 方差 的 归 一 化 Causs 随机 变量 的 概率 密度 函数 ; 


aly) = Geer (9) 
展开 式 (8) 就 称 为 由 Gauss 函数 和 它 的 导数 表示 的 概率 密度 函数 的 Gram-Charlier 级 数 
(Stuart and Ord,1994)。 这 种 形式 的 展开 式 具 有 直观 性 好 处 。 特 别 地 ， 如 果 随 机 变量 了 
是 由 一 些 独立 的 同 分 布 的 随机 变量 的 和 ， 那 么 当 变量 的 数目 趋 于 无 穷 时 ， 根 据 中 心 极 
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限定 理 ，Y 趋 于 Gauss 分 布 。Gram-Charlier 级 数 展开 式 的 第 一 项 确实 是 Gauss 的 ， 这 意 
味 着 它 的 表示 随 着 变量 的 数目 增加 ， 序 列 后 面 的 项 的 和 趋 近 于 零 。 
式 (8) 中 的 Hermite 多 项 式 及 (y) 通 过 a(y) 的 天 阶 导数 定义 为 
a (y) = (= 1)*aly) H, (y) (10) 
下 面 是 一 些 典 型 的 Hermite 多 项 式 : 
Ay) = 1,4, (y) = yy) = f - 1, 
H;(y) = ° -3y,H,(y) = yf - 6y +3, 
Hs(y) = yf - 107° + 15y, Hs(y) = y - 15y* + 45y -15 
这 些 多 项 式 的 递 推 关系 为 
H.a (y) = yH,(y) - kA, (y) (11) 
Hermite 多 项 式 一 个 特别 有 用 的 性 质 是 H, (yy) A Gauss 函数 aly AY m 次 导数 是 双 正 交 
的 ， 表 示 为 
| Ha™ (ay = (-1)"m!8,,, (k,m) = 0,1," (12) 


其 中 56 是 Kronecker 符号 ， 当 = m 为 它 为 1， 其 他 情况 为 0。 
重要 的 是 注意 到 项 的 自然 顺序 对 Gram-Chanlier 级 数 并 不 是 最 好 的 。 相 反 ， 应 按 下 面 列 
出 的 圆 括号 内 的 项 分 组 (Helstrom, 1968) : 

k = (0),(3),(4,6),(5,7,9) (13) 
这 些 分 组 的 元 素 经 常 是 同一 数量 级 的 。 例 如 我 们 保留 上 = 4 的 项 ， 则 我 们 也 应 当 包 括 
= 0。 
(b) Edgeworth 展开 式 
与 前 面 一 样 ， 令 a(y) 是 一 个 归 一 化 为 零 均值 和 方差 为 1 的 随机 变量 的 概率 密度 函数 。 
随机 变量 了 的 概率 密度 函数 对 Gauss 通 近 aly) H Edgeworth 展开 式 为 (Comon,1994; Stuart 
and Ord, 1994) 








A A Sr ely) + 前 pHs Cy) 
+ Sie (y) + 280%: Hy(y) + gr Hy) 56 Sp (y) (14) 
35K; 21003 ky 








15400x3 
+ 8! H,(y) + 10! Hy y) +37 12! S Hely) 十 “ 


其 中 ki 表示 标准 化 后 的 标量 随机 变量 了 的 i RAB, H K ii Hermite 多 项 式 。 式 
(14) 叫 做 Edgeworth 级 数 。 

Edgeworth 展开 式 的 关键 特征 是 系数 为 一 致 递减 的 。 另 一 方面 ， 式 (8) 中 的 Gram-Charlier 
展开 式 从 数值 误差 来 看 并 不 一 致 趋 于 0， 也 就 是 说 ,一 般 地 ， 没 有 哪 一 项 可 以 被 忽略 。 
也 就 是 这 个 原因 ， 才 要 按照 式 (13) 的 分 组 来 截断 Gram-Charlier 展开 式 。 


[15] 用 VD = (VD) W'W 代替 通常 梯度 VD 解决 言 源 分 离 问题 的 思想 在 Cardoso and Laheld 


(1996) 中 有 详细 的 介绍 。 这 里 VD 称 为 相对 梯度 ， 这 个 梯度 与 自然 梯度 是 相同 的 。 自 然 
梯度 是 从 信息 几何 的 观点 来 定义 的 (Amari,1998; Amari et al.1996)。 类 似 的 算法 早 些 时 候 
在 Cichocki and Moszczyfiski(1992) 和 Cichocki et al. (1994) 中 有 描述 。 
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[16] 例如 ， 在 n ARESE, E a 的 平方 范 数 定义 为 


lal? = 2 Dy gaa; 
其 中 g ERE. m o 2, HRY, g= g; ， 表 达 式 右边 总 是 正 的 。 
这 个 表达 式 是 欧 几 里 德 平方 范 数 公式 
lall? = 2a 

的 推广 。 关 于 黎 曼 空间 结构 的 讨论 ， 参 考 Amari(1987) 和 Murray and Rice(1993)。 

[17] Aedes (10.55) CH ACY) AEA ICY;X) ZEK, Bell and Sejnowski(1995) 把 他 
们 的 言 源 分 离 的 方法 称 为 最 大 互信 息 原 则 。 但 是 更 好 的 术语 是 “最 大 灶 方 法 ”， 因 为 它 
PRR h(Z) 的 最 大 化 ， 其 中 Z = G(Y)。 上 归功 于 Bel 和 Sejnowski K BVA MRA 
方法 不 应 与 归功 于 Burg( 1975) BYE BT Be KAT (MEM) FETE 。 

[18] 随机 变量 蕊 被 称 为 亚 高 斯 (sub-Gauss) 的 (Benveniste et al. ,1987) ， 如 果 

。 它 是 均匀 分 布 的 。 

。 它 的 概率 密度 函数 y(x) ARRE epl- g(x)) 的 形式 ， 其 中 g(x) 可 能 除了 原点 
外 为 可 微 的 偶 函 数 ， 并 且 g(x) 和 g Caa 在 区 间 (0, om ) 是 严格 递增 的 。 例 如 ， 可 
AER g(x)=1xl*， B>2. 

但 是 ， 如 果 2 (x)/x TEO, © ) 是 递减 的 ， 而 其 他 的 性 质 都 满足 ， 则 随机 变量 X 就 叫 超 

高 斯 (super-Gauss) 的 (Benveniste et al. ,1987 )， 例 如 g(x)= bx l?, B<2. 

有 时 (也 许 有 些 滥用 的 方式 ) 使 用 随机 变量 的 峭 度 (kurtosis) 符 号 作为 亚 高 斯 或 超 高 斯 的 

指标 。 随 机 变量 的 峭 度 定义 为 

E[ X'] 
KO) = Gory 
在 此 基础 上 ， 根 据 峭 度 K(x) 为 负 或 为 正 ， 随 机 变量 互 分 别称 为 亚 高 斯 或 超 高 斯 的 。 


-3 


习题 
A AR 

10.1 随机 变量 X 的 支撑 集 (也 就 是 取 非 零 的 值 域 ) 定 义 为 [a,5]; 没有 别 的 限制 加 在 X 
上 。 该 随机 变量 的 最 大 炳 分 布 是 什么 ?证明 你 的 结论 。 
互信 息 

10.2 推导 10.4 节 描述 的 随机 变量 X 和 了 的 互信 息 7(X;Y) 的 特性 。 

10.3 “假设 输入 随机 向 量 X 由 初始 分 量 X 和 背景 分 量 X, 组 成 ， 定 义 

Y, = a'X,,Z, = b’X, 
试问 Y, AZ, 之 间 的 互信 息 和 X, MX, 之 间 的 互信 息 有 何 关系 ? 假设 向 量 X 的 概率 模型 是 多 
元 Gauss 分 布 
F) = Tr E(x -IE 上) 


其 中 中 是 和 的 均值 ， 忆 是 它 的 协 方差 矩阵 。 
10.4 FE Ph YP RGR FA A Ut BK Kulllback-Leibler 散 度 来 推导 多 层 感知 机 
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(Hopfield, 1987b; Baum and Wilczek, 1998 ) 的 监督 学 习 算 法 。 更 确切 地 说 ， 考 虑 一 个 由 一 个 输 
人 层 、 一 个 隐藏 层 和 一 个 输出 层 构 成 的 多 层 感知 机 ， 假 设 实例 或 样本 呈现 给 输入 ， 输 出 层 
神经 元 大 的 输出 解释 为 概率 : 

Ykia = Pia 
相应 的 ， 令 gw。 表示 当 输 入 是 a 时 ,假设 为 真 的 条 件 概率 的 实际 值 ， 该 多 层 感知 机 的 相对 





Dyl = È p. 5 (oe 2) +1 - qua log + tus) ) 
其 中 p, 是 一 个 出 现 “情况 的 先 验 概率 。 
以 局 :为 最 优化 的 代价 函数 ， 推 导 一 个 多 层 感知 机 的 学 习 算 法 。 
最 大 互信 息 原 则 
10.5 假设 有 两 个 通道 。 它 们 的 输出 分 别 用 随机 变量 和 了 表示， 要求 使 了 ，Y 之 间 的 
互信 息 达 到 最 大 。 证 明 只 要 满足 以 下 条 件 则 就 可 以 达到 要 求 ; 
(a) 出 现 的 概率 和 出 现 Y 的 概率 分 别 是 0.5。 
(b)X,， 了 的 联合 概率 密度 函数 集中 在 概率 空间 的 一 个 小 区 域内 。 
10.6 考虑 图 10-17 中 的 噪声 模型 ， 两 个 神经 网 络 的 输入 端 都 为 m 个 源 节点 。 输 入 由 
Xo X, +, Xn BAR, PNR Yi, Yy 表示 。 你 可 以 作 如 下 假设 : 
。 网 络 输出 端的 加 性 噪声 分 量 N, N, 是 Gauss 分 布 ， 具 有 有 零 均值 和 共同 方差 中， 并 且 
互 不 相关 。 
。 每 个 噪声 源 与 输入 信号 无 关 。 
。 输出 信号 Y, Y, 都 是 0 均值 的 Gauss 分 布 。 
(a) 求 输出 向 量 Y=[Y, 了,] 与 输入 向 量 久 = [X ,XX,,… Xn] ZAKEEN. 
(b) 利 用 (a) 中 导出 的 结果 ,检测 在 以 下 情况 下 元 余 / 相 异性 是 如 何 折 中 的 (Linsher， 
[542] 1998a) : 
人) 噪声 的 方差 很 大 ， 表 示 为 of 相对 于 Y,, Y 很 大 。 
(这 噪声 的 方差 很 小 ， 表 示 为 起 相对 于 Yi, Y BD. 
X10 N, 








图 10-17 


10.7 在 10.9 节 中 所 描述 的 最 大 互信 息 原则 的 变 体 (Becker and Hinton, 1992) P, AAR 
是 根据 噪声 神经 系统 的 输入 向 量 X, ，X, RAE Y, Yy 之 间 的 互信 息 1( 了 ,; Y, ) 的 最 大 值 。 
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在 Becker and Hinton (1992) 讨 论 的 另 一 个 方法 中 ， 一 个 不 同 的 目标 是 求 输出 Y, MY, 的 平均 
值 与 它们 固有 的 共同 信号 分 量 $ 之 间 的 互信 息 I s) 的 最 大 值 。 


利用 式 (10.$9) 和 式 (10.60) 中 描述 的 噪声 模型 ， 完 成 下 列 任务 : 
(a) 证 明 


i( Y, + s,s] _ loe( rx? + x1) 


varl N, + N, ] 
其 中 N, N Æ Y, Y, 相应 的 噪声 分 量 。 

(b) 用 信号 加 噪声 与 噪声 的 比 来 解释 此 互信 息 。 
独立 分 量 分 析 

10.8 给 出 主 分 量 分 析 ( 在 第 8 章 讨论 ) 与 独立 分 量 分 析 ( 在 本 章 讨 论 ) 的 详细 比较 。 

10.9 独立 分 量 分 析 可 以 用 作 检 测 和 分 类 之 前 近似 数据 分 析 的 预 处 理 步 又 (Comon， 
1994 )。 讨 论 能 在 这 种 应 用 中 加 以 利用 的 独立 分 量 分 析 的 性 质 。 

10.10 Damois 定理 陈述 只 有 当 各 个 独立 变量 是 Gauss 分 布 的 ， 其 和 才 是 Gauss 分 布 的 
(Darmois, 1993)。 用 独立 分 量 分 析 证 明 这 个 定理 。 

10.11 在 实际 的 应 用 中 ， 一 个 独立 分 量 分 析 算 法 实现 只 能 得 到 “ 尽 可 能 统计 独立 ”。 上 比 
较 用 该 算法 解 盲 源 分 离 问 题 得 到 的 解 与 利用 去 相关 方法 得 到 的 解 的 差异 。 假 设 观 察 向 量 的 协 
方差 矩阵 为 非 奇异 的 。 

10.12 参考 图 10-9 描述 的 系统 ,证 明 分 离 器 的 输出 Y 的 任何 两 个 分 量 的 互信 息 最 小 化 
与 参数 化 的 概率 密度 函数 fy(y,W) 和 相应 的 析 因 分 布 f(y,W) 之 间 的 Kullback-Leibler 散 度 的 
最 小 化 等 价 。 

10.13 在 式 (10.104) 中 描述 的 盲 源 分 离 问 题 的 自 适应 算法 有 两 个 重要 的 性 质 ，(1) 等 变 
化 性 ，(2) 权 值 矩 阵 W 保持 非 奇异 。 性 质 (1) 在 10.11 节 后 面部 分 有 详细 的 介绍 。 在 本 习题 
中 我 们 考查 第 二 个 性 质 。 

假设 用 于 开始 (10.104) 算 法 的 初始 值 W(0) 满 足 的 条 件 1det(W(0))1 关 0,， 证 明 对 所 有 的 
n A ldet(W(n))| 400 XERE Wn) 对 所 有 的 n 是 非 奇 异 的 充分 必要 条 件 。 

10.14 在 这 个 问题 中 ， 我 们 讨论 式 (10.104) 所 描述 的 盲 源 分 离 算法 的 批 处 理 公 式 。 特 
别 地 ， 我 们 写成 


AW = (I- Lavy’) w 


其 中 
na) n … yN) 
Y- nD n2) 1 2) 
ya Yal) 1 %—_ CN) 
PV)) py1(2)) 77 ply, CV) 


ov - POD) P2) ai PCr (N)? 


pya 1)) GC ¥m(2)) … Pya N)) 
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其 中 N 是 可 用 数据 点 的 数目 。 EH ERA W 的 调整 AW 的 公式 成 立 。 


mA E 
10.15 考虑 图 10-15, RIE 
Y = Wx 
其 中 Y=[Y,,Y,,, Yn] 
X=[X,, Xs Xn] 
W 是 一 个 mx m WIER., $ 
Z = [Z Zt Za] 
其 中 Z,=@(Y%,), k=1,2,+,m 
(a) HERA Z WK a Kullback-Leibler HU Dy ;之 间 的 关系 为 
h(Z) =- Daj - Di 


其 中 访 1, 是 下 面 两 个 量 的 Kullback-Leibler 散 度 : (a) 统计 独立 的 ( 即 析 因 式 的 ) 输 出 向 量 组 Y 


的 概率 密度 函数 ，(b) 由 【[[ ,， q(y) 定 义 概率 密度 函数 。 


(b) 对 所 有 的 i， 当 q(y;) 与 初始 源 输出 U; 的 概率 密度 函数 相等 时 ，h(Z) 的 公式 该 如 何 


修改 ? 
10.16 (a) 从 式 (10.134) 开 始 ， 推 导 式 (10.135) 的 结果 。 


(b) 用 式 (10.136) 中 的 logistic 函数 ， 证 明 使 用 式 (10.135) 将 产生 由 式 (10.137) 给 出 的 公 


式 。 





第 11 章 植 根 于 统计 力学 的 随机 
机 器 和 它们 的 远近 
11.1 简介 


作为 我 们 无 监督 ( 自 组 织 ) 学 习 系 统 的 最 后 一 种 类 别 ， 我 们 以 统计 力学 作为 我 们 思想 的 出 
发 点 。 统 计 力 学 的 主题 围绕 对 大 系统 宏观 平衡 态 性 质 的 形式 化 研究 ， 而 系统 的 每 个 基本 元 素 
服从 力学 的 微观 定律 。 统 计 力 学 的 主要 目标 是 从 微观 元 素 如 原子 和 电子 的 运动 推导 出 宏观 物 
体 的 热力 学 性 质 (Landau and Lifshitz, 1980; Parisi,1988)。 这 里 面 对 的 自由 度数 量 是 巨大 的 ， 这 
样 只 有 利用 统计 的 方法 进行 研究 。 正 如 Shannon 的 信息 论 一 样 ， 在 统计 力学 的 研究 中 箭 的 概 
念 起 着 关键 的 作用 : RARAFRAEHRED HBR PS, MAR PRIMAL, A 
RRIF RE HED ARE, WARK FE 1975 年 ，Jaynes 证 明了 炉 不 仅 可 以 像 前 一 
章 所 述 的 那样 作为 构造 统计 推理 的 出 发 点 ， 而 且 可 以 作为 产生 统计 力学 研究 基础 的 Gibbs 分 
布 的 出 发 点 。 

利用 统计 力学 作为 研究 神经 网 络 基础 的 兴趣 可 以 追溯 到 Cragg and Temperley(1954) 以 及 
Cowan(1968) 的 早期 工作 。Boltzmann 机 (Hinton&Sejnowski,1983,1986; Ackley et al. ,1985) 也 许 
是 第 一 个 由 统计 力学 导出 的 多 层 学 习 机 。 机 器 命名 的 原因 是 为 了 表明 神经 网 络 自己 的 动 
力学 行为 和 Boltzmann 初始 的 统计 热力 学 的 形式 的 等 价 性 。 基 本 上 说 ，Boltzmann 机 可 以 对 
给 定数 据 集 的 固有 概率 分 布 进行 建 模 ， 这 样 在 诸如 模式 完备 和 模式 分 类 等 任务 中 所 使 用 
的 条 件 分 布 就 可 以 导出 来 了 。 令 人 遗憾 的 是 Boltzmann 机 的 学 习 过 程 是 令 人 难以 忍受 地 慢 ， 
这 一 缺点 导致 对 Boltzmann 机 的 修改 和 产生 了 新 的 随机 机 器 。 以 上 这 些 问 题 构 成 了 本 章 的 
大 部 分 题材 。 


本 章 的 组 织 


本 章 被 组 织 成 三 部 分 。 第 一 部 分 由 11.2 节 至 11.6 节 所 组 成 。11.2 节 给 出 统计 力学 的 简 
要 评述 ,在 11.3 节 中 回顾 一 类 特殊 类 型 的 随机 过 程 ， 即 Markov 链 ， 它 是 在 研究 统计 力学 中 
常会 遇 到 的 。11.4 节 、11.5 节 和 11.6 节 描 述 三 种 随机 模拟 技巧 : Metropolis 算法 、 模 拟 退 火 
和 Gibbs 抽样 。 

本 章 的 第 二 部 分 由 11.7 至 11.9 节 组 成 ， 讨 论 三 类 随机 机 器 。11.7 节 描 述 Boltzmann 机 。 
11.8 节 描 述 sigmoid 信 度 网 络 。11.9 节 描 述 另 一 类 新 的 称 为 Helmholtz 机 的 随机 机 上 髓 。 

本 章 的 最 后 一 部 分 由 11.10 节 至 11.13 节 组 成 ， 讨 论 随机 机 器 的 基于 统计 力学 中 的 平均 
场 理 论 的 逼近 。11.10 节 讨 论 在 一 般 意 义 下 的 平均 场 理 论 。11.11 节 讨 论 Boltzmann 机 的 平均 
场 理 论 ， 随 后 的 11.12 节 讨 论 对 sigmoid 信和 度 网 络 平均 场 理论 更 原则 性 的 处 理 方法 。11.13 节 
描述 一 种 对 模拟 退火 的 逼近 ， 即 确定 退火 。 

本 章 最 后 在 11.14 节 中 给 出 最 终 的 评论 。 


[545] 
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11.2 统计 力学 
考虑 具有 许多 自由 度 的 物理 系统 ， 它 可 以 驻 留 在 大 量 可 能 状态 中 的 任何 一 个 。 例 如 ， 用 
Pi 表示 状态 ; 发 生 的 概率 ， 具 有 如 下 性 质 : 
p20 任 给 i (11.1) 
和 Èp: = 1 (11.2) 
用 OE, 表示 系统 在 状态 i 时 的 能 量 ， 统 计 热力 学 告诉 我 们 ， 当 系统 和 它 周围 的 环境 处 于 热 平 
衡 时 ， 一 个 基本 的 结果 是 状态 i 发 生 的 概率 如 下 : 
E. 
p: = Jel- E) (11.3) 
其 中 7 为 开尔文 绝对 温度 ，ks 为 Boltzmann 常数 ，Z 为 与 状态 无 关 的 常数 。1 开尔文 度 相当 


于 摄氏 -273 BE, kp =1.38 x 10-*3 焦 耳 / 开 。 

式 (11.2) 定 义 概率 规范 化 的 条 件 。 将 这 个 条 件 加 入 到 式 (11.3) 我 们 有 

Z= Deel - 5) (11.4) 

规范 化 量 Z 称 为 状态 和 或 者 剖 分 函数 (通常 用 符号 Z 是 因为 这 项 的 德 文 名 字 为 Zustadsumme)。 式 
(11.3) 的 概率 分 布 称 为 典型 分 布 或 Gibbs 分 布 中 ;指数 因子 exp( - E,/kgT) PR Boltzmann 因 
子 。 

对 Gibbs 分 布 以 下 两 点 值得 注意 : 

1. 能 量 低 的 状态 比 能 量 高 的 状态 发 生 的 概率 高 ; 

2. 随 着 温度 了 降低， 概率 集中 在 低能 状态 的 一 个 更 小 的 子 集 上 。 

在 神经 网 络 的 领域 内 ， 就 我 们 主要 关心 的 内 容 而 言 ， 温 度 了 可 以 被 视 为 一 种 伪 温 度 ， 
它 控制 表示 一 个 神经 元 突 触 噪 声 的 热 波动 。 它 的 精确 标 度 因而 无 关 重要 。 相 应 地 ， 我 们 可 以 
置 常 数 如 为 单位 而 重新 度量 之 ， 因 此 重新 定义 概率 m HRM ZW: 


Pi = 了 expl - =) (11.5) 
和 Z= Dero - 7) (11.6) 


今后 我 们 处 理 统计 力学 就 在 这 两 个 定义 基础 上 进行 ， 其 中 7 简单 称 为 系统 温度 。 从 式 (11.5) 
我 们 注意 到 - logp: 可 以 被 看 作 在 单位 温度 下 “能 量 " 的 一 种 度量 。 


自由 能 量 和 蚁 
一 个 物理 系统 的 Helmholtz 自由 能 量 记 为 F, HR RM Z 定义 如 下 : 
F =— TlogZ (11.7) 
系统 的 平均 能 量 定 义 为 
< E >= D pE; (11.8) 


其 中 < . > 表示 总 体 平 均 运 算 。 因 此 ， 利用 式 (11.5) 至 式 (11.8)， 可 以 看 出 平均 能 量 和 自由 
能 量 之 差 为 
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<E>-F=- T Jpilogp: (11.9) 
式 (11.9) 右 边 的 量 忽略 温度 7， 称 为 系统 的 精 ， 表 示 为 
H =- QIPilogp， (11.10) 


因此 我 们 重 可 以 写 式 (11.9) 为 
< E >- F= TH 


的 形式 或 等 价 的 
F=< E>-TH (11.11) 
考虑 两 个 系统 A 和 4 彼此 热 接触 。 假 设 系统 4 比 系统 4' 更 小 ， 这 样 4 可 以 看 作 具 有 恒 
温 7 BUS. PS ABER) SR I FAK IB KE SK (Reif, 1967 ) 
AH + AH’ >0 
增加 ， 其 中 AH 和 AF 分 别 表示 系统 A AA RACE HSE 11.11), KARAM 
是 指 自由 能 量 逐 渐 降 低 至 平衡 态 时 变 为 最 小 。 由 统计 力学 我 们 发 现 此 时 它 的 概率 分 布 为 
Gibbs 分 布 。 因 而 我 们 有 一 个 重要 的 原则 称 为 最 小 自由 能 量 原则 ， 它 可 以 陈述 如 下 (Landau 
and Lifshitz,1980; Parisi 1988) : 
随机 系统 变 元 的 自由 能 量 的 最 小 值 可 在 热平衡 时 达到 ， 此 时 系统 服从 Gibbs 分 布 。 
自然 偏爱 具有 最 小 自由 能 量 的 物理 系统 。 
11.3 Markov 链 


考虑 一 个 由 多 个 随机 变量 组 成 系统 ， 其 演化 可 由 一 个 随机 过 程 1XX,,n = 1,2,…| 描 述 。 
随机 变量 X, 在 时 刻 n 取 值 x, 称 为 系统 在 n 时 刻 的 状态 。 随 机 变量 所 有 可 能 的 值 构 成 的 空间 
称 为 系统 的 状态 空间 。 如 果 随 机 过 程 1 已 ,nm = 1,2,…| 的 构造 使 得 蕊 ,的 条 件 概率 分 布 仅 依 
F X, 的 值 而 与 其 他 以 前 的 值 无 关 ， 我 们 所 这 个 过 程 为 Markov 4 (Feller, 1950; Ash, 1965)。 
更 准确 地 说 ， 我 们 有 

P(X = ma |X, = et X= = POX = tear |X, = %) (11.12) 

这 称 之 为 Markov 特性 。 换 句 话说 : 

如 果 系 统 在 n+1 时刻 出 现状 态 x,,1 的 概率 仅 依赖 于 系统 在 n 时 刻 出 现状 态 x, HRA, 
则 随机 变量 序列 X,, X,, +, X,, X,,, RA Markov 链 。 


因此 我 们 可 以 将 Markov 链 看 作 产 生 模 型 ， 它 由 一 些 状态 和 可 能 的 状态 转移 链接 而 成 。 
每 时 刻 访问 一 个 特定 的 状态 ， 模 型 输出 一 个 该 状态 相关 的 符号 。 
转移 概率 

在 Markov 链 中 ， 从 一 个 状态 到 另 一 个 状态 的 转移 是 随机 的 ， 但 输出 符号 却 是 确定 的 。 
4 

py = P(X. = 7 1X, = i) (11.13) 

表示 在 n 时 刻 状态 i 转移 到 n+ 1 时 刻 状态 j 的 转移 概率 。 既 然 p, 为 条 件 概率 ， 所 有 的 转移 
概率 必须 满足 两 个 条 件 ， 
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py 20 ”对 所 有 (i,]) (11.14) 
Dips = 1 对 所 有 i (11.15) 
我 们 将 假定 转移 概率 是 固定 的 ， 不 随时 间 改 变 ; 也 就 是 说 , 式 (11.13) 对 所 有 时 间 n 成 立 。 


在 这 种 情况 下 Markov 链 称 为 关于 时 间 是 齐 次 的 。 
如 果 系 统 具 有 有 限 数目 的 可 能 状态 ， 例 如 KK MRA, WRB RRA MP OK x K WE 


阵 
pu Pwo °“ Pik 
P= P” Pox (11.16) 
Pk Pr PKK 


它 的 元 素 满足 式 (11.14) 和 式 (11.15) 所 氢 的 条 件 ， 而 后 一 条 件 就 是 了 的 每 行 的 和 为 1。 这 种 
类 型 的 矩阵 称 为 随机 延 阵 。 任 何 随机 和 矩阵 可 以 作为 转移 概率 矩阵 。 
由 式 (11.13) 定 义 的 一 步 转移 概率 可 以 推广 到 经 过 固定 的 步 数 从 一 个 状态 转移 到 另 一 

状态 。 令 pl? RAR NARS i 到 状态 j 的 m 步 转移 概率 : 

PS? = P(Xism = x% l X, = x) m = 1,2, (11.17) 
我 们 可 以 把 p 久 看 作 系统 从 状态 ; 转移 到 状态 / 经 历 的 所 有 中 间 状 态 HA. PHD, pyre? 
可 由 py” 递 推 而 得 : 

py? = Dap Py m = 1,2," (11.18) 


而 Pa = Pa 
式 (11.18) 可 以 推广 如 下 : 
py" ) = Dipu py (n D (m,n) = 1,2,°", (11.19) 


这 是 Chapman-Kolmogorov ‘2 4 re JE (Feller, 1950) 。 

当 链 上 的 一 个 状态 仅 能 在 d 的 整数 倍 时 刻 上 重新 出 现 ， 我 们 说 该 状态 有 周期 d。 一 个 

Markov 链 称 为 非 周期 的 ， 如 果 它 的 所 有 状态 仅 有 周期 1。 
常 返 性 

假设 一 个 Markov 链 从 状态 i 开始 ， 它 以 概率 1 返回 状态 i;， 则 称 状态 i 为 常 返 的 ; 

也 就 是 说 
fi = P( 总 是 返回 状态 i = 1 
若 概 率 f < 1， 则 称 状态 i 为 瞬 态 (Leon-Garcia,1994)。 

如 果 Markov 链 从 一 个 常 返 态 开始 ， 则 该 状态 在 时 间 上 将 无 穷 次 重 现 。 如 果 从 一 个 瞬 态 
开始 ， 它 将 只 能 有 限 次 重 现 。 这 可 以 作 如 十 解释。 我 们 可 以 把 状态 重新 发 生 看 作 一 个 成 功 
概率 为 的 Bernoulli 试验 。 它 返回 的 次 数 为 具有 均值 (1 - 方 ') 的 几何 随机 变量 。 若 f < 1， 
这 意味 着 有 无 穷 次 成 功 的 次 数 为 零 。 因 此 一 个 瞬 态 确实 在 有 限 次 返回 后 不 再 发 生 ( Leon- 
Garcia, 1994) 。 

如 果 一 个 Markov 链 有 某 些 瞬 态 和 常 返 状态 ， 则 该 过 程 最 终 只 会 在 常 返 态 之 间 移 动 。 
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不 可 约 Markov 链 


一 个 Markov 链 上 的 状态 j 称 为 从 状态 i 可 达 的 ， 如 果 从 状态 i 到 j 存在 有 限 步 具有 正 概 
率 的 转移 。 如 果 状 态 i 和 状态 j 之 间 互 为 可 达 的 ， 则 该 Markov 链 的 状态 i 和 状态 j 称 为 彼此 
相通 的 。 这 种 相通 可 写作 i >j。 很 明显 ， 如 果 状 态 i 与 状态 7 相通 ， 且 状态 j 与 状态 上 相通 ， 
即 ivy Mjek, MRE i 和 状态 相通 ， 即 ik. 

如 果 一 个 Markov 链 的 两 个 状态 相通 ， 它 被 说 成 是 属于 同一 类 的 。 一 般 情 况 下 ， 一 个 
Markov 链 的 状态 组 成 一 个 或 多 个 不 相通 的 类 。 但 是 ， 如 果 所 有 状态 组 成 一 个 类 ， 则 称 该 
Markov 链 为 不 可 分 的 或 不 可 级 的 。 换 句 话 说， 一 个 不 可 约 的 Markov 链 从 任 一 个 状态 开始 ， 
可 以 以 正 的 概率 达到 任何 别 的 状态 。 可 约 链 在 大 多 数 的 应 用 领域 无 实际 价值 。 相 应 地 我 们 限 
制 我 们 的 注意 仅 在 不 可 约 的 链 。 

考虑 一 个 不 可 约 的 Markov 链 ， 在 时 刻 n =O 时 开始 于 常 返 态 io S TOARRE k-1% 
和 第 次 返回 状态 i 之 间 的 时 间 间 隔 。 状 态 i 的 平均 常 返 时 间 定义 为 T(E) 关 于 的 期 望 值 。 
状态 i 的 稳 态 概率 ， 记 为 x;， 等 于 平均 常 返 时 间 E[ 7,(k) ] 的 倒数 ， 即 由 下 式 表 示 : 

Wi EITO] 

G ELT (k)] < o ， 也 就 是 r >0, RE i 称 为 正常 返 的 。 若 E[ T(Ek)] = w， 也 就 是 n; 
=0， 状 态 i 称 为 零 常 返 的 。x; = 0 意味 着 Markov 链 最 终 达 到 的 状态 再 返回 状态 i 是 不 可 能 
的 。 正 常 返 和 零 常 返 是 不 同类 的 性 质 ， 这 意味 着 同时 具有 正常 返 和 零 常 返 的 Markov 链 是 可 
约 的 。 
遍历 Markov 链 

大 体 上 说 ， 遍 历 性 意味 着 我 们 可 以 用 时 间 的 平均 替代 总 体 平 均 。 对 一 个 Markov 链 来 说 ， 
遍历 性 意味 着 链 处 于 状态 i 的 时 间 长 度 和 稳 态 概率 x, 相对 应 ， 这 可 以 说 明 如 下 。 上 大 次 返回 
后 花费 在 状态 i 的 时 间 比 v(E) 定 义 为 

vi(k) = = 
Dy T,(1) 
返回 时 间 7T,(7) 构 成 一 列 独立 的 和 同 分 布 的 随机 变量 ， 因 为 由 定义 ， 每 次 返回 的 时 间 都 是 和 
以 前 返回 的 时 间 统 计 独 立 的 。 更 进一步 ， 对 常 返 态 i， 链 返回 状态 i 无 穷 次 。 因 此 当 返 回 次 
数 k 允 近 无 穷 大 时 ， 大 数 定律 表明 ， 花 费 在 状态 i 的 时 间 比 例 趋 近 稳 态 概率 ， 表 示 为 





limv; (k) = 7g,i = 1,2,°°,K (11.20) 
Markov 链 为 遍历 的 一 个 充分 但 不 必要 的 条 件 是 它 为 不 可 约 的 且 非 周期 的 。 


收敛 于 平衡 分 布 

考虑 一 个 遍历 的 Markov 链 ， 相 应 的 转移 矩阵 为 P。 令 行 向 量 n 表示 链 在 n -1 时刻 
的 状态 分 布 向 量 ; 下 "的 第 了 个 分 量 为 在 时 刻 m -1 时 链 处 于 状态 x, 的 概率 。 在 n 时 刻 状 
态 分 布 向 量 可 以 定义 为 
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me” = nP (11.21) 

FH (11.21 384049 Bll | 
x” 一 git P = g? P? = ni? P? =e 

并 且 最 后 可 以 写成 

mh = nP (11.22) 
其 中 r” 为 状态 分 布 向 量 的 初始 值 。 也 就 是 说 ，Markov 链 在 时 刻 n 状态 分 布 向 量 为 初始 状态 
分 布 向 量 oo ABLE P H n 次 方 的 乘积 。 

S p/P RAR P 的 第 站 个 元 素 。 假 设 随时 间 n LAAK, pp ETFS KKH n, H 

中 ri 为 状态 j 的 稳 态 概率 。 相 应 地 ， 对 于 大 的 n, ER P 通 近 于 有 相等 行 的 方 阵 形式 ， 可 
表示 为 


T ë t TK 

n tiS] Ta wee Uk m 

limP =]. ， . |=|. (11.23) 
TM m Xk T 


HEF r EHEH m, m, e, n 构成 。 从 而 我 们 由 (11.22) 发 现 (经 过 一 系列 调整 ) 
[Si 一 1]x = 0 
因为 由 定义 Sn = 1 ， 初 始 分 布 的 独立 向 量 x 满足 这 个 条 件 。 
现在 我 们 可 以 叙述 关于 Markov 链 的 遍历 定理 如 下 (Feller,1950; Ash, 1965) : 


设 一 个 遍历 且 不 可 约 的 Markov 链 具 有 状态 x), x2, 0, ae FEDE P= jpy|。 那 么 ， 
该 链 有 惟一 的 平稳 分 布 ， 可 以 由 任 一 初始 态 收敛 到 它 ; 也 就 是 说 ， 存 在 惟一 一 组 数 | a AR 
得 


1. lim py? = 和 对 于 所 有 (11.24) 
2.0, >0 对 于 所 有 j (11.25) 
K 
3. Sn = 1 (11.26) 
jel k 
4.n,= D)mpy 对 于 j = 1,2,…,K (11.27) 
i=l 


相反 ， 假 定 一 个 Markov 链 为 非 周期 不 可 约 的， 存在 jrj 六 满足 式 (11.25) 至 (11.27)， 那 
么 该 链 是 遍历 的 ，ri 由 式 (11.24) 给 出 ， 状 态 了 的 平均 常 返 时 间 为 ro 

HEROM ARU | 大 1 称 为 不 变 分 布 或 平稳 分 布 。 这 样 命名 是 因为 它 一 旦 建立 ， 将 永远 保 
持 。 根 据 遍 历 定理 ， 我 们 可 以 断言 : 

。 从 任意 初始 分 布 开始 ， 一 个 Markov 链 的 转移 概率 将 收敛 于 一 个 平稳 分 布 ， 只 要 这 个 

平稳 分 布 存 在 。 
。 遍历 的 Markov 链 的 平稳 分 布 独立 于 它 的 初始 分 布 。 
例 11.1 考虑 一 个 Markov E, 其 状态 转移 图 由 图 11-1 描绘 ， 它 有 两 个 状态 2x, 和 x,。 


EY) BDL a MY 
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它 满足 式 (11.4) 和 式 (11.5) 的 条 件 。 假 设 初始 条 件 是 x”=[ 万， 元 ] 。 由 式 (11.21) 我 们 发 现 
在 时 刻 n= 1 状态 分 布 问 量 为 





tb 一 elw 





图 11-1 例 11.1 的 Markov 链 的 状态 转移 图 


升 高 随机 矩阵 了 的 寡 次 为 mw = 2, 3, 4, 我 们 有 
0.4375 0.5625 
~ [0.3750 0.6250 
el ed 
0.3999 0.6001 


因此 m = 0.4000 F m, =0.6000。 在 这 个 例子 中 ,平稳 分 布 的 收敛 基本 上 在 n =4 次 迭代 就 完 
成 了 。 由 于 x, Mm 都 大 于 零 ， 两 个 状态 都 是 正常 返 的 ， 并 且 链 为 不 可 约 的 。 同 时 注意 它 是 
非 周 期 的 ,这 是 因为 使 (P” ), AE ERB RAs Sl 因此 我 们 得 出 结 
ve, PA 11-1 所 示 的 Markov PERSI HY o a 


例 11.2 考虑 随机 矩阵 具有 某 些 夫 元 素 的 侠 )-- : ~@ >: 
Markov $£, 40 . 
0 0 1 y j 
Tyi 
P=|3 6 2 
3 y © 
4 4 


该 链 的 状态 转移 图 由 图 11- 2 描绘 。 图 11-2 例 11.2 的 Markov 链 的 状态 转移 图 
应 用 式 (11.27) 得 到 下 列 联 立 方程 组 : 





1 3 1 1 1 554 
q = 37! + qm = 6™ + qe =m + FT 
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解 关 于 m, m 和 x 的 方程 组 ， 我 们 得 
m, = 0.3953, m, = 0.1395, m = 0.4652 


这 个 给 定 的 Markov HEA, CUFFED mn, m 和 定义 。 a 
状态 
状态 分 类 j 
在 所 述 材料 的 基础 上 ， 我 们 可 以 对 状 一 NN 
态 所 属 的 类 进行 小 结 ， 如 图 11-3 所 示 转移 常 返 
(Feller, 1950; Leon-Garlin, 1994)。 这 个 图 还 | a NN 
包括 状态 相关 的 长 期 行为 。 ka l 
ree FEE 
细节 平衡 原则 a ~ m,=0 
式 (11.25) 和 式 (11.26) 仅 仅 强 调 数值 +185 B5 
US 为 概率 。 式 (11.27) 是 关键 的 ， 因为 不 am P=, lim p” = dm asn— 
可 约 的 Markov 链 必须 满足 它 ， 从 而 也 就 有 me 其 中 d 是 大 于 1 的 整数 


阅 稳 分 布 存在 。 式 (11.27) 可 以 认为 是 一 阶 。 11.3 Markov 链 的 状态 分 类 及 它们 相应 的 长 期 行为 
反应 动力 学 中 的 细节 平衡 原则 的 重新 陈 
述 。 细 节 平 衡 原则 表明 ， 在 热平衡 中 任何 转移 的 发 生 率 等 于 对 应 的 逆转 移 的 发 生 率 ， 可 表达 
为 (Reif,1965) 

TiPy = TD (11.28) 
为 了 导出 式 (11.27) 的 关系 ,我 们 可 以 对 等 式 的 左边 进行 求 和 如 下 : 


K K K 
QU TPs = EDE = 2 (pi) = x 


在 等 式 的 第 二 行 中 我 们 应 用 了 细节 平衡 原则 ， 在 最 后 一 行 利 用 了 一 个 Markov 链 的 转移 概率 
满足 的 条 件 ( 参 看 式 (11.15)， 其 中 交换 了 i Al; 的 作用 ): 


Ds Pi = 1 对 所 有 7 
注意 细节 平衡 原则 意味 着 分 布 jx | 是 一 个 平稳 分 布 。 
11.4 Metropolis 算法 


至 此 我 们 弄 清 了 Markov 链 的 构成 ， 我 们 将 应 用 它 构 成 一 个 模拟 物理 系统 演化 到 热平衡 的 
随机 算法 。 这 个 算法 称 为 Metropolis 算法 (Metropolis et al. ,1953)。 它 是 Monte Carlo 方法 的 一 种 修 
改 ， 在 早期 的 科学 计算 中 Monte Carlo 方法 是 对 大 量 原子 在 给 定 温 度 下 的 平衡 态 的 随机 模拟 。 

假设 随机 变量 X, 表示 任 一 Markov 链 在 时 刻 n 的 状态 为 x;。 我 们 随机 生成 新 的 状态 x, 
它 表 示 另 一 个 随机 变量 Y, 的 一 次 实现 。 假 设 生成 这 个 新 状态 满足 对 称 条 件 : 

P(Y, = % 1X, = %) = PCY, = x | X, = x) 
S AE RAR RSNA X, = x, BRAS Y, = x, 所 产生 的 能 量 差 。 如 果 能 量 差 为 负 ， 则 这 次 转 
移 导 致 一 个 较 低能 量 状态 且 这 次 转移 被 接受 。 这 个 新 状态 也 就 接受 作为 算法 下 步 的 起 点 ， 即 
我 们 令 X,,; = Y,。 反 之 如 果 能 量 差 A 为 正 ， 这 时 算法 以 概率 方式 进行 处 理 。 首 先 ， 我 们 





TERR F BAT DF 69 EBM Fo ENI 69 18128 405 





选择 一 个 在 单位 区 间 [0,1] 上 均匀 分 布 的 随机 数 £。 如 果 E< exp( -AE/7)， 其 中 了 为 操作 温 
度 ， 转 移 被 接受 上 且 置 X,,, = Y,。 否 则 ， 转 移 被 拒绝 ， 置 X, = Xs 即 旧 的 配置 被 算法 的 下 
一 步 重 新 利用 。 
转移 概率 的 选择 

对 任意 Markov 链 ， 设 它 有 先 验 转移 概率 ， 记 为 rr ， 它 满足 三 个 条 件 : 

1. 非 负 性 : tO HARAG, j) 

2. 归 一 化 : 2Jr = 1 对 所 有 i 

3. 对 称 性 ，t =t。 对 所 有 (让 

令 x, 表示 Markov 链 在 状态 x,，i = 1，2，…， 天 的 平稳 态 概率 。 因 而 我 们 可 以 利用 已 定 
义 的 对 称 的 和 概率 分 布 比 n/n, 来 构成 期 望 的 转移 概率 (Beckerman, 1997) : 


TETS 


Pi = (11.29) 
Ty 对 于 元 >i 


为 了 确保 转移 概率 归 一 化 为 单位 1， 我 们 引入 无 转移 概率 的 附加 定义 : 
Pi =u + Dn(1- 2) = 1- Dot (11.30) 
其 中 ww 是 移动 概率 ， 定 义 为 
ay = min( 1,5) (11.31) 


惟一 尚 需 解决 的 要 求 是 怎样 选择 比值 xyr; 。 为 满足 这 个 要 求 ， 我 们 选择 概率 分 布 使 得 
所 得 的 Markov 链 收 敛 到 一 个 Gibbs 分 布 ， 表 示 为 


T 


1 E, 
= zel- 7) 
这 时 概率 分 布 比 n/n, 取 简 单 形 式 


五 - AE 
元 = exp| - | (11.32) 
其 中 AE = E, - E, (11.33) 


利用 概率 分 布 比 可 以 排除 对 剖 分 函数 Z 的 依赖 。 

根据 构造 ， 转 移 概率 是 非 负 的 且 归 整 化 为 单位 1， 如 式 (11.14) 和 式 (11.15) 的 要 求 。 进 
一 步 ， 它 们 满足 由 式 (11.28) 所 定义 的 细节 平衡 原则 。 这 个 定律 对 热平衡 是 一 个 充分 条 件 。 
为 了 说 明 满 足 细 节 平 衡 原 则 ， 我 们 给 出 下 列 的 考虑 : 

情况 1: AE < 0。 假 设 从 状态 r 转移 到 状态 rw ， 能 量变 化 AE 为 负 。 从 式 (11.32) 我 们 
R z/n > 1， 所 以 利用 式 (11.29) 得 到 


和 TDi DER ERT 
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因此 当 AE < 0 时 细节 平衡 原则 满足 。 
情况 2: AE > 0。 假 设 从 状态 x; 到 状态 x; 的 能 量变 化 AE 为 正 ， 这 时 我 们 发 现 (x /x ) 
<1, 利 用 式 (11.29) 得 到 


和 TP = TT 
这 里 又 看 出 细节 平衡 原则 得 到 满足 。 

为 了 完整 起 见 ， 我 们 需要 指出 由 ty 表示 的 先 验 转移 概率 的 使 用 。 这 些 转移 概率 事实 上 
是 Metropolis 算法 中 的 随机 步 的 概率 模型 。 由 前 面 给 出 的 算法 描述 ， 我 们 回忆 随机 步 后 面 是 
随机 决策 。 因 此 可 以 得 出 结论 ， 利 用 通过 由 先 验 转移 概率 ty 在 式 (11.29) 和 式 (11.30) 定 义 的 
转移 概率 p; 和 平稳 概率 分 布 x; 对 Metropolis 算法 来 说 确实 是 正确 的 选择 。 

值得 注意 的 是 由 Metropolis 算法 产生 的 平稳 分 布 并 不 惟一 决定 Markov 链 。 平 稳 态 时 的 
Gibbs 分 布 也 可 以 利用 其 他 更 新 规则 而 不 是 Metropolis 算法 的 Monte Carlo 规则 产生 。 例 如 利用 
由 Ackley et al.(1986) 提 出 的 Boltzmann 学 习 规 则 产生 ; 这 个 规则 将 在 11.7 节 中 讨论 。 


11.5 模拟 退火 


考虑 寻找 一 个 低能 量 系 统 的 问题 ， 其 状态 由 一 个 Markov 链 排 序 。 由 式 (11.11) 观 察 到 当 
温度 7 趋 近 于 零 ， 系 统 的 自由 能 量 FPH < E>. H F> < 上 >， 我们 观察 到 由 自由 
能 量 最 小 化 原则 ， 该 Markov 链 的 平稳 分 布 即 Gibbs 分 布 ， 当 7 一 0 MPR SPEARS <E >H 
全 局 极 小 点 。 换 句 话 说， 序列 中 的 低能 状态 在 低温 时 受到 更 强 的 支持 。 这 些 观察 促使 我 们 提 
出 问题 : 为 什么 不 简单 地 应 用 Metropolis 算法 产生 大 量 的 代表 该 随机 系统 在 很 低温 度 下 的 构 
JÉ (Configuration) ? 我 们 不 提倡 使 用 这 种 策略 是 因为 在 很 低温 度 下 Markov 链 到 热平衡 的 收敛 速 
度 特别 慢 。 而 提高 计算 效率 更 好 的 方法 是 在 较 高 温度 运行 随机 系统 ， 这 时 达到 平衡 态 的 收敛 相 
当 快 ， 接 着 随 温度 的 精细 下 降 保 持 系统 的 平衡 态 。 也 就 是 ， 我 们 使 用 两 个 相关 成 分 的 组 合 : 

。 一 个 决定 温度 下 降 速 度 的 调度 表 

。 一 个 算法 一 一 如 Metropolis 算法 一 一 迭代 求解 每 个 调度 表 给 出 的 新 的 温度 下 的 平衡 分 

布 ， 这 时 利用 前 面 温度 时 的 最 终 状 态 作 为 新 温度 时 的 起 始点 。 

我 们 刚才 提 到 的 两 步 格 式 是 被 广泛 使 用 的 以 模拟 退火 中 著称 的 随机 松弛 技术 的 精华 
(Kirkpatrick et al. ,1983)。 这 个 技术 的 名 字 是 类 比 物理 /化 学 中 的 退火 过 程 得 到 的 ， 在 物理 /化 
学 的 退火 过 程 中 ， 我 们 从 高 温度 开始 退火 过 程 ， 接 着 慢 慢 降低 温度 同时 保持 热平衡 。 

模拟 退火 最 初 的 目标 是 寻找 刻 划 复杂 大 系统 的 代价 函数 的 全 局 极 小 点 ”。 正 是 因为 如 
此 ， 它 提供 一 个 求解 非 凸 最 优化 问题 的 有 力 工 具 ， 这 由 下 面 的 简单 想法 所 导致 ; 

当 优化 一 个 非常 复杂 的 大 系统 ( 即 具 有 许多 自由 度 的 系统 ) 时 不 要 求 总 是 下 降 而 是 试图 要 
求 大 部 分 时 间 在 下 降 。 
模拟 退火 在 两 方面 和 传统 的 迭代 优化 算法 不 同 : 

。 算法 不 会 陷入 局 部 最 小 ， 因 为 当 系统 在 非 零 温度 上 运行 时 脱离 局 部 最 小 总 是 可 能 的 ，; 

。 模拟 退火 是 自 适 应 的 ， 在 高 温 时 看 见 系 统 的 终 态 的 大 致 轮廓 ， 而 它 的 具体 细节 在 低 

温度 时 才 呈 现 出 来 。 
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退火 进度 表 
如 前 面 提 到 的 ， 模 拟 退火 过 程 的 基础 是 Metropolis 算法 ， 其 间 温 度 7 慢 慢 下 降 。 也 就 是 
说 ， 温 度 了 起 调节 参数 的 作用 。 假 定 温度 下 降 得 不 比 对 数 更 快 ， 则 模拟 退火 过 程 将 收敛 于 
一 个 具有 最 小 能 量 的 构 形 。 遗 憾 的 是 这 种 退火 进度 太 慢 了 一 一 慢 得 不 切实 用 。 实 际 上 ， 我 们 
必须 求 诸 于 算法 的 渐进 收敛 的 有 限时 间 和 逼近 ， 这 种 逼近 所 付出 的 代价 是 算法 不 再 以 概率 1 保 
证 找到 全 局 最 小 点 。 然 而 算法 的 逼近 结果 在 许多 实际 应 用 上 能 产生 近似 最 优 解 。 
为 了 实现 模拟 退火 算法 的 有 限时 间 芝 近 ， 我 们 必须 设 定 一 系列 控制 算法 收敛 的 参数 ， 这 
些 参 数组 合成 所 谓 的 退火 进度 表 或 冷却 进度 表 ， 退 火 进度 表 设 定 一 个 温度 的 有 限 序列 值 ， 以 
及 每 一 温度 值 下 有 限 的 转移 尝试 的 次 数 。Kirkpatrick et al.(1983) 给 出 的 退火 进度 表 的 感 兴 值 
的 参数 设 定 如 下 人 *: 
。 温度 的 初始 值 。 温 度 的 初始 值 T 选 得 足够 高 使 得 所 有 提出 的 转移 实际 都 能 被 模拟 退 
火 算法 所 接受 。 
。 温度 的 下 降 。 一 般 地 说 ,冷却 是 按 指 数 形式 完成 的 ， 并 且 温 度 值 的 改变 量 都 很 小 。 
特别 地 ， 下 降 函 数 定义 为 
T, = aT,_,, k = 1,2,°°° (11.34) 
其 中 a 小 于 但 接近 于 1. a 的 典型 值 介 于 0.8 和 0.99 之 间 。 对 每 一 温度 ， 有 足够 的 转 
移 的 尝试 ， 使 得 平均 每 次 实验 有 10 次 转移 被 接受 。 
。 温度 的 最 后 值 。 如 果 在 三 次 相连 的 温度 下 没有 得 到 预期 的 接收 次 数 ， 则 系统 被 冻结 
且 退 火 停止 。 
后 一 个 标准 可 以 改进 ， 要 求 接受 率 小 于 一 预定 值 (Johnson et al. ,1989) ， 而 接受 率 定 义 为 转移 
接受 的 次 数 除 以 提出 转移 的 次 数 。 
模拟 退火 用 于 组 合 优化 
模拟 退火 特别 适用 于 解 组 合 优化 问题 。 组 合 优 化 的 目标 是 针对 有 很 多 可 能 解 的 有 限 离散 
系统 ， 最 小 化 它 的 代价 函数 。 本 质 上 讲 模拟 退火 利用 Metropolis 算法 通过 多 粒子 物理 系统 和 
组 合 优化 问题 间 的 类 比 产生 一 系列 解 。 
在 模拟 退火 中 ， 我 们 把 式 (11.5) 的 Gibbs 分 布 中 的 能 量 E 解释 成 为 数值 的 代价 ， 而 温度 
了 解释 为 控制 参数 。 在 组 合 优 化 问题 中 对 每 一 构 形 赋予 一 数值 的 代价 以 描述 这 个 特殊 的 构 形 
和 解 的 差异 。 模 拟 退 火 程 序 中 下 一 个 需要 考虑 的 问题 是 如 何 确认 构 形 和 从 已 有 构 形 以 局 部 方 
式 产生 新 的 构 形 。 这 就 是 Metropolis 算法 发 挥 作用 的 地 方 。 因 此 我 们 概括 统计 物理 的 术语 和 
组 合 优 化 术语 之 间 的 关系 如 表 11-1(Beckerman, 1997 ) 
表 11-1 统计 物理 与 组 合 优 化 之 间 的 对 应 





统计 物理 组 合 优化 
样本 问题 实例 
状态 ( 构 形 ) 构 形 

能 量 代价 函数 
温度 控制 参数 
基态 能 量 最 小 代价 


基态 构 形 最 优 构 形 
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11.6 Gibbs 抽样 


类 似 Metropolis 算法 ，Gibbs 抽样 器 ”生成 一 个 Markov 链 ， 它 以 平衡 分 布 作为 Gibbs 分 布 。 

但 是 Gibbs 抽样 器 的 转移 概率 是 非 平 稳 的 (Geman and Geman, 1984)。 在 最 后 的 分 析 里 ， 
关于 Gibbs 抽样 和 Metropolis 算法 的 选择 取决 于 具体 问题 的 技术 细节 。 

为 了 继续 描述 这 个 抽样 格式 ， 考 虑 一 个 KK- 维 的 随机 向 量 入 ， 由 分 量 X, XL, oo Xk 
构成 。 假 定 在 给 定 X 的 其 他 分 量 时 我 们 知道 X 的 条 件 分 布 , 上 = 1，2，…， 天 。 我 们 希望 问 
的 问题 是 : 对 任何 丰 ， 怎 样 获得 随机 变量 X 的 边缘 密度 的 数值 估计 。 对 随机 向 量 X 的 每 个 
分 量 ， 在 已 知 X 的 其 他 分 量 值 的 条 件 下 ，Gobbs 抽样 器 对 它 的 条 件 分 布 产生 一 个 值 。 特 别 
地 ， 从 任意 构 形 [ x, (0) ,x,(0),…, xx(0)] 开 始 ， 我 们 在 Gibbs 抽样 的 第 一 次 迭代 时 做 下 列 采 
FE: 

xi(1) 是 在 已 知 x.(0)，x;(0)，…，xx(0) 时 由 Xi 的 分 布 产 生 的 采样 。 

x2(1) 是 在 已 知 x1(1)，x3(0)，…，xx(0) 时 由 X 的 分 布 产生 的 采样 。 


xi(1) 是 在 已 知 xi(1), wey x,-,(1), X44, (0), 1g acy (O) AY FA X, 的 分 布 产 生 的 采样 。 


sx(1) 是 在 已 知 x (1)，x(1)，…，xx-i(l) 时 由 Xx 的 分 布 产生 的 采样 。 

在 第 二 次 迭代 和 其 他 的 每 次 抽样 迭代 中 我 们 用 这 种 方式 进行 处 理 。 以 下 两 点 需要 特别 注 
意 

1. 随机 向 量 义 的 每 个 分 量 是 以 自然 序列 “访问 "的 ， 每 次 迭代 产生 总 共 K 个 新 的 变量 
值 。 

2. 对 于 8 =2，3，…， 天 ， 在 对 X, 采样 新 值 时 直接 利用 分 量 筷 -的 新 的 值 。 

由 这 个 讨论 我 们 看 到 Gibbs 采样 是 迭代 的 自 适 应 格式 。 利 用 它 进行 n KARE, RE 
到 天 个 变化 量 : XX (n)，X,(n),，…，Xk(n)。 在 相当 温和 的 条 件 下 ， 以 下 三 个 定理 对 
Gibbs 抽样 成 立 (Geman and Geman ,1984; Gelfand and Smith, 1990) : 

1. 收敛 定理 。 对 局 =1，2,，…，K。 当 nn 趋 于 无 穷 大 时 ， 随 机 变量 X, (n)RPRKAF 
X 的 真实 概率 分 布 ; 也 就 是 说 ， 

lim P(X,” <x1x,(0)) = Fy (x), k = 1,2,-+,K (11.35) 

其 中 Fy (xz) 为 Xi BARREDA BH, 
FKE, T Geman and Geman(1984) 中 证 明了 更 强 的 结果 。 特 别 地 ， 不 要 求 随机 向 量 X 的 每 
个 分 量 以 自然 顺序 被 重复 访问 ,任意 的 访问 方式 只 要 不 依赖 于 变量 的 值 且 X 的 每 个 分 量 被 
“无 限 地 经 常 "访问 ， 则 Gibbs 抽样 收敛 性 仍 成 立 。 

2. 收敛 速度 定理 。 随 机 变量 久 (n)，X,(n)，…，Xk(n) 的 联合 概率 分 布 以 n 的 几何 级 
Sig BIST X’, X, o, ARADA hA 
这 个 定理 假设 和 的 分 量 以 自然 顺序 访问 。 但 是 当 使 用 以 任意 的 但 无 限 地 经 常 访问 时 ， 这 样 
收敛 速度 需要 较 小 的 调整 。 
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3. 遍历 定理 。 对 任何 例如 对 于 随机 变量 X, Xo, X HTM SK e, CHARRA 

在 ， 我 们 有 
lim 4 She X (a), KC) po Ke) -~ El g(X), X,,, XK) (11.36) 

以 概率 1( 即 几乎 肯定 ) 实 现 。 
遍历 定理 告诉 我 们 怎样 利用 Gibbs 采样 的 输出 获得 所 期 望 的 边缘 密度 的 数值 估计 。 

在 Boltzmann 机 中 使 用 Gibbs 采样 对 有 关 隐 藏 神经 元 的 分 布 进行 采样 ; 这 种 随机 机 器 将 在 
下 一 节 讨 论 。 对 于 使 用 二 值 单元 的 随机 机 器 ( 即 Botzmann 机 ) 来 说 , 值得 注意 的 是 Gibbs 采样 
正好 和 Metropolis 算法 的 一 个 变 体 完 全 一 样 。 在 Metropolis 算法 的 标准 形式 里 我 们 以 概率 1 下 
山 ， 相 反 的 在 Metropolis 算法 的 另 一 个 形式 里 ， 我 们 以 1 或 能 量 差 的 指数 ( 即 上 山 规则 的 补 
充 ) 的 概率 下 山 。 换 句 话 说 ， 如 果 一 个 变化 降低 了 能 量 ERE 没有 变化 时 ， 则 这 个 变化 被 接 
受 ; 如 果 变 化 升 高 了 能 量 ， 它 是 以 exp( - AE) 的 概率 被 接受 ， 否 则 被 拒绝 ， 而 以 旧 的 状态 重 
复 (Neal ,1993) 。 


11.7 Boltzmann 机 


Boltzmann 机 是 由 随机 神经 元 组 成 的 随机 机 器 ， 随 机 神经 元 如 第 1 章 所 讨论 的 那样 ， 以 
概率 方式 取 两 个 可 能 状态 之 一 。 这 两 个 状态 可 以 指定 为 + 1， 表 示 “ 开 ”状态 ， 指 定 为 -1 表 
示 “ 关 ”状态 ,或 分 别 用 1 和 0 表示。 我 们 将 采用 前 面 的 记号 。Boltzmann 机 另 一 个 突出 的 特征 
就 是 它 的 神经 元 间 使 用 对 称 的 突 触 连接 ， 这 种 形式 的 突 触 连接 也 有 统计 物理 方面 的 考虑 。 

Boltzmann 机 的 随机 神经 元 分 成 两 部 分 功 
能 组 ， 如 图 11-4 所 示 为 可 见 部 分 和 隐藏 部 
分 。 可 见 神经 元 @ 提供 网 络 和 它 运 行 环境 之 
间 的 一 个 界面 。 在 网 络 的 训练 阶段 ， 所 有 可 
见 神经 元 都 被 菠 制 在 环境 所 决定 的 特定 状态 。 
另 一 方面 ， 隐 藏 神 经 元 总 是 自由 运行 的 ， 它 
们 用 来 解释 环境 输入 向 量 包含 的 固有 约束 。 
”隐藏 神经 元 通过 捕获 箱 制 向 量 中 的 高 阶 统计 
相关 来 完成 这 项 任务 。 这 里 所 叙述 的 网 络 代 
表 Boltzmann 机 的 一 种 特殊 情况 。 它 可 以 看 成 
是 对 某 确定 概率 分 布 建 模 的 无 监督 学 习 程 序 ， 图 11-4 Boltzmann 机 体系 结构 图 ; 为 可 见 神 
该 确定 概率 分 布 决定 于 在 可 见 神经 元 上 以 合 经 元 数目 ，L 为 隐藏 神经 元 数目 
适 的 概率 箱 制 模式 。 这 样 做 ， 网 络 能 起 到 模 
A ZA (pattern completion) 的 作用 。 特 别 地 ， 当 一 部 分 携带 信息 的 向 量 箱 制 在 可 见 神经 元 的 子 
集 上 ， 如 果 网 络 已 经 恰当 地 学 会 了 训练 分 布 ， 这 时 网 络 能 够 对 剩 下 的 可 见 神经 元 网 络 给 出 它 
们 的 恰当 的 值 ， 起 到 模式 完成 的 作用 (Hinton,1989 )。 

Boltzmann 机 学 习 的 主要 目的 是 产生 一 个 神经 网 络 ， 根 据 Boltzmann 分 布 对 输入 模式 进行 
正确 的 建 模 。 在 这 种 学 习 的 应 用 中 ， 作 了 两 个 假设 : 

。 每 个 环境 输入 向 量 (模式 ) 持 续 足 够 长 的 时 间 ， 人 允许 网 络 达 到 热平衡 。 

。 环境 向 量 箱 制 在 网 络 可 见 单元 上 的 次 序 是 没有 任何 结构 的 。 
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一 组 特定 的 突 触 权 值 当 它 导 出 的 可 见 单元 状态 的 慨 率 分 布 ( 当 网 络 自由 运行 时 ) 和 可 见 单 
元 被 环境 输入 向 量 所 箱 制 时 的 状态 概率 分 布 完全 一 样 ， 我 们 说 它 构 造 了 环境 结构 的 一 个 完整 
模型 。 一 般 情况 下 ， 除 非 隐 藏 单元 数目 是 可 见 单元 数目 的 指数 ， 不 可 能 得 到 完整 模型 。 但 
是 ， 如 果 环 境 有 规则 的 结构 .网络 利用 隐藏 单元 捕获 这 些 规则 ， 这 时 利用 较 小 的 能 处 理 的 隐 
藏 神经 元 数目 可 以 对 环境 取得 一 个 好 得 匹配 。 





‘Boltzmann 机 的 Gibbs 抽样 和 模拟 退火 


& x #276 Boltzmann 机 的 状态 向 量 ， 它 的 分 量 x; 表示 神经 元 i 的 状态 。 状 态 x 代表 随机 
向 量 入 的 一 次 实现 。 从 神经 元 i Pg Aij 的 突 触 连接 记 为 w, ， 满 足 ， 
wi = wy ”对 所 有 (i,j ) (11.37) 
和 ws =0 对 所 有 (11.38) 
式 (11.37) 描 述 对 称 性 而 式 (11.38) 强 调 无 白 反 馈 。 偏 置 可 以 利用 一 个 输出 恒 为 + 1 的 虚 节 点 
到 神经 元 /对 所 有 门 的 连接 权 值 wo 表示 。 
类 似 于 热 动 力学 ，Boltzmann 机 的 能 量 可 定义 为 


E(x) =- + 2 D wari (11.39) 


利用 (11.5) 的 Gibbs 分 布 ， 我 们 可 以 定义 网 络 (假定 处 在 温度 T 的 平衡 态 ) 在 状态 x 的 概率 如 
下 ; 





P(X=x) = exp - E(x) (11.40) 


其 中 2 为 剖 分 函数 。 
为 了 简化 表示 ， 定 义 单 个 事件 4 及 联合 事件 B 和 C 如 下 : 
A:X,=%,, BilX, =ai8,,i4j, C:tX, = «thy 
实际 上 ， 联 合 事件 B 排斥 4， 而 联合 事件 C 包括 4 和 B。B 的 概率 是 C 关于 4 的 边缘 概率 。 
因此 ， 利 用 式 (11.39) 和 式 (11.40) ， 我 们 可 写作 


P(C) = P(A,B) = za7 Se (11.41) 


P(B) = YP(A,B) = 7 DEES Dwr) (11.42) 


在 式 (11.41) 和 式 (11. 42) 中 的 指数 可 以 表示 成 两 项 之 和 ， 一 项 和 y 有 关 而 另 一 项 与 x 无 关 。 
包含 有 % 的 项 为 


AAO, HEB, Bx, = ， 我 们 可 以 给 rh A 的 条 件 概 率 
paie o PAD. 1 





1+exp( 3 7 Do] 


也 就 是 可 写成 P(X, = « (1X; = heng) = o( = Siva) (11.43) 
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其 中 gl ) 为 它 变 元 的 sigmoid HAL, HANA 














1 
(v) = 1 + expl- v) (11.44) L365 


注意 x 虽然 在 +1 和 -1 间 变 化 ,但 当 ， 
充分 大 时 ， 整 个 变量 v= aD) was 可 
在 - 和 + % 之 间 变 化 ， 如 图 11-5 所 描 Poo) 
绘 。 同 时 注意 ,在 推导 式 (11.43) 时 ， 不 
需 谢 分 函数 2， 这 是 高 度 期 望 的 ， 因 为 对 
于 非常 复杂 的 网 络 直接 计算 Z 是 不 现实 
的 。 

利用 Gibbs 抽样 表示 联合 分 布 P(4， 0 v 
B), ÆRE, WO 11.6 节 所 解释 的 那样 ， 
这 个 随机 模拟 开始 时 给 网 络 赋予 任 一 状 HILS sigmoid- PER PO) 
态 ， 神 经 元 以 它们 的 自然 顺序 依次 重复 访问 ， 每 次 访问 ， 选 择 一 个 神经 元 ,根据 其 他 神经 元 
的 值 确定 该 神经 元 状态 新 值 的 选择 概率 。 假 定 这 个 随机 模拟 进行 足够 长 的 时 间 ， 则 网 络 将 达 
到 在 温度 了 下 的 平衡 。 

遗憾 的 是 到 达 热 平衡 的 时 间 可 能 非常 长 。 为 了 克服 这 个 困难 ， 如 同 在 11.5 节 所 解释 的 
那样 ， 对 有 限 温度 序列 T, Ti ，…，7Tsw， 使 用 模拟 退火 。 特 别 地 ， 温 度 被 初始 化 为 一 个 
高 的 值 7， 因 此 可 迅速 到 达 热 平衡 。 然 后 ， 温 度 7 逐渐 降低 至 最 后 值 7 ， 这 时 神经 元 状态 
将 (有 希望 ) 达 到 它们 的 边缘 分 布 。 


Boltzmann 学 习 规 则 


AN Boltzmann 机 是 一 种 随机 机 器 ， 它 自然 依赖 于 用 概率 论 评价 其 性 能 。 这 种 标准 之 一 
是 似 然 函数 中 。 在 此 基础 上 ,根据 最 大 似 然 原则 ，Boltzmann 学 习 的 目标 是 最 大 化 似 然 函数 
或 等 价 的 对 数 似 然 函数 。 

BT 表示 感 兴趣 的 概率 分 布 抽样 所 组 成 的 训练 样本 。 假 设 它们 都 是 二 值 的 。 训 练 样本 允 
VER, 但 必须 和 它们 发 生 的 概率 成 比例 。 令 状态 向 量 x OTR x, 表示 可 见 神经 元 状态 。 
向 量 x 的 剩余 部 分 x 表示 隐藏 神经 元 的 状态 。 状 态 向 量 x，x。 和 x, 分 别 表示 随机 向 量 XX， 
X, FX, HKA, Boltzmann 机 的 运行 分 成 两 个 阶段 : 

。 正 向 阶段 。 此 时 网 络 在 箱 制 环境 下 ( 即 在 训练 集 的 直接 影响 下 ) 运 行 。 
。 负 向 阶段 。 在 第 二 阶段 ， 网 络 允许 自由 运行 ， 因 此 没有 环境 输入 。 

对 整个 网 络 给 定 突 触 间 权 值 w， 可 见 神经 元 状态 为 x 的 概率 是 P(X, = x,)。 训 练 集 了 中 
包含 许多 可 能 值 x ， 假 定 它们 是 统计 独立 的 ， 总 体 的 概率 分 布 是 析 因 分 布 Il, eg P(X, = 
X%)。 为 了 写 出 对 数 似 然 函数 L(w) ， 对 析 因 分 布 取 对 数 且 将 w 看 作 未 知 的 参数 向 量 。 我 们 
因此 可 以 写成 

L(w) = log IT P(X, = x,) = Dy logP(X, =x) (11.45) 
xE x€ 


为 了 通过 能 量 函 数 形成 边缘 概率 P(X, =x, ) 的 表达 式 ， 利 用 以 下 两 点 ; 
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+ 由 式 (11.40)， 概 率 P(X=x) 等 于 之 exp( - E(x)/7)。 


。 a 状态 向 量 x 是 属于 可 见 神经 元 的 状态 x, 和 属于 隐藏 神经 元 的 状态 x 的 联 立 
。 因 此 可 见 神经 元 处 于 状态 x, 与 任何 x, 的 概率 为 





P(X, = x,) = z Del- #7”) (11.46) 
其 中 随机 向 量 X, 是 入 的 子 集 ， 剖 分 函数 2 定义 为 (参看 式 (11.6)) 
Z = Dero - EW) (11.47) 
因而 将 式 (11.46) 和 (11.47) 代 入 式 (11.45)， 得 出 对 数 似 然 函 数 所 期 望 的 表达 式 : 
L(w) = 2 (tog Ze- rw). log Dy exp (- E09 ) (11.48) 


对 w 的 依赖 包含 在 能 量 函 数 ECO, 如 式 (11.39) 所 示 。 
依据 式 (11.39)， 求 L(w) 对 wi 的 微分 ， 经 过 一 些 运算 后 我 们 得 到 下 列 结果 (参看 习题 
11.8): 














Sew) =a (ZPO = x |X, = x,)ax; - Dy P(X = = x)x«;,) (11.49) 
为 了 简单 起 见 ， 我 们 引入 画 个 定义 ， 
Oj =< 4%, > ”= DD DU PCR =% 1X, = x) wx (11.50) 
x E99 & 
[67] 和 pi = < a > = DD P(X = x) ap, (11.51) 
x, ET x 


从 宽松 意义 上 我 们 可 以 将 第 一 项 平均 值 pi 看 成 点 火 率 的 平均 ， 或 神经 元 i 和 7 的 状态 之 间 的 
相关 性 ， 此 时 网 络 在 夭 制 下 运行 或 者 说 处 于 正 向 阶段 。 类 似 地 ， 第 二 项 均值 p; 可 看 成 神经 
元 i 和 j 的 状态 间 的 相关 性 ， 此 时 网 络 自 由 运行 或 者 说 是 处 于 负 向 阶段 。 利 用 这 些 定义 ， 我 
们 可 以 简化 式 (11.49) 如 下 : 

= (of - oj) (11.52) 
Boltzmann HL% 7J A) BAY SE BK AT AMR KR Lw), 我们 可 以 利用 梯度 下 降 法 达到 这 一 
点 ， 写 成 





Aw; = ew = NP- pi) (11.53) 
其 中 ?是 学 习 率 参数 ; Ci e 和 运行 温度 7 定义 为 
1 = F (11.54) 


式 (11.53) 的 梯度 下 降 规 则 称 为 Boltzmann # % Jas, 这 里 所 叙述 的 学 习 是 集中 完成 的 ; 即 突 
触 权 值 的 改变 是 在 整个 训练 样本 集 都 给 出 的 情况 下 进行 的 。 

根据 这 个 学 习 规 则 ，Boltzmann 机 的 突 触 权 值 的 调整 仅 使 用 两 个 不 同 条 件 下 的 局 部 可 观 
测量 ， 这 两 个 不 同 条 件 为 (1) 箱 制 运行 , 和 (2) 自 由 运行 。 这 个 Boltzmann 学 习 的 重要 特征 极 大 
地 简化 了 网 络 结构 ， 特 别 在 处 理 大 型 网 络 时 更 是 如 此 。 另 一 个 重要 特征 是 神经 元 i 和 j 之 间 
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的 突 触 权 值 的 调整 规则 是 独立 于 神经 元 的 可 见 与 奉 的 ， 不 管 它们 可 见 或 部 不 可 见 ， 这 一 点 可 
能 令 人 吃惊 。Boltzmann 学 习 的 所 有 这 些 有 益 的 特征 归功 于 Hinton and Sejnowski(1983,1986) 的 
关键 性 见解 ， 它 们 将 Boltzmann 机 的 抽象 数学 模型 和 神经 元 网 络 在 以 下 两 点 上 联系 起 来 : 

。 描述 一 个 神经 元 的 随机 性 的 Gibbs 分 布 。 

。 定义 Gibbs 分 布 的 基于 统计 物理 学 的 能 量 函 数 (11.39)。 

从 学 习 观 点 看 ， 组 成 Boltzmann 学 习 规 则 的 式 (11.53) 的 两 项 具有 相反 的 意思 。 我 们 可 以 
把 相应 于 网 络 箱 制 条 件 下 的 第 一 项 从 本 质 上 看 作 Hebb 学 习 规则 ， 而 把 相应 于 网 络 自由 运行 
下 的 第 二 项 看 作 非 学 习 项 或 遗忘 项 。 确 实地 ，Boltzmann 学 习 规 则 代表 重复 遗忘 和 再 学 习 规 
则 的 推广 ， 这 个 工作 是 Pippel and Krey(1987) 对 无 隐藏 神经 元 的 对 称 网 络 所 描述 的 。 

既然 Boltzmann 机 学 习 算 法 要 求 隐 藏 神 经 元 知道 被 刺激 和 自由 活动 之 间 的 差异 ， 并 且 假 
定 有 一 个 (隐藏 的 ) 外 部 网 络 向 隐藏 神 经 元 发 信号 告知 Boltzmann 机 正 被 刺激 ， 我 们 就 有 一 个 
注意 机 制 的 原始 形式 (Cowan and Sharp,1988)， 这 一 点 倒是 很 有趣 的 。 


负 向 阶段 的 需求 及 其 隐 含 的 意义 


正 向 和 负 向 阶段 的 联合 使 用 稳定 Boltzmann 机 突 触 权 值 的 分 布 。 这 种 要 求 可 以 用 另外 的 
方式 进行 说 明 。 直 观 上 讲 ， 我 们 可 以 说 在 Boltzmann 学 习 过 程 中 对 正 向 和 人 负 向 阶段 的 要 求 归 
因 于 神经 元 状态 向 量 的 概率 表达 式 中 的 剖 分 函数 Z 的 出 现 。 这 样 说 暗示 着 能 量 空间 的 最 速 
下 降 方向 和 概率 空间 的 最 速 下 降 方 向 不 一 致 。 实 际 上 ， 学 习 过 程 的 负 向 阶段 需要 考虑 到 这 种 
差异 (Neal, 1992)。 

在 Boltzmann 学 习 中 使 用 负 向 阶段 有 两 个 主要 缺点 : 

1. 增加 计算 时 间 。 在 正 向 阶段 ， 一 些 神经 元 由 外 界 环境 所 镇 制 ， 而 在 负 向 阶段 ， 所 有 
神经 元 都 自由 运行 。 相 应 地 ，Boltzmann 机 的 随机 模拟 时 间 增 加 了 。 

2. 对 统计 误差 敏感 。Boltzmann 学 习 规则 涉及 两 个 平均 相关 性 之 间 的 差异 ， 一 个 相关 性 
计算 正 向 阶段 而 另 一 个 计算 负 向 阶段 。 当 这 两 个 相关 性 相似 时 ， 抽 样 噪声 的 出 现 使 得 它们 的 
差异 具有 更 多 的 噪声 。 

我 们 可 以 利用 sigmoid 信和 度 网 络 消除 Boltzmann 机 的 这 个 缺点 ， 在 这 类 新 的 随机 机 器 里 ， 
对 学 习 过 程 的 控制 是 利用 均值 而 不 是 负 向 阶段 。 


11.8 sigmoid 信和 度 网 络 


sigmoid 信 度 网 络 或 logistic 信 度 网 络 由 Neal 在 1992 年 所 发 展 的 ， 它 主要 是 为 了 寻找 一 种 
随机 机 器 ， 它 既 享 有 Boltzmann 机 能 学 习 任 何 二 值 概率 分 布 的 能 力 ， 但 不 需要 Boltzmann 机 学 
习 过 程 的 负 向 阶段 。 这 个 目标 的 达到 ， 是 用 有 向 连接 构成 的 无 园 图 代替 Boltzmann 机 的 对 称 
连接 。 特 别 地 ， 一 个 sigmoid 信和 度 网 络 由 二 值 随机 神经 元 的 多 层 结构 组 成 ， 如 图 11-6 所 示 。 
机 器 具有 无 圈 的 性 质 使 得 概率 计算 简单 。 尤 其 是 ， 类 似 于 Boltzmann 机 ， 网 络 利 用 式 (11.43) 
的 sigmoid 函数 计算 一 个 神经 元 受到 它 自己 的 诱导 局 部 域 刺激 时 的 条 件 概率 。 


sigmoid 信 度 网 络 的 基本 性 质 


令 向 量 买 由 二 值 随 机 变量 X, X, e Xy 组 成 ， 它 定义 由 六 个 随机 神经 元 构成 的 一 
个 sigmoid 信 度 网 络 。 在 和 中 的 元 素 X 的 双亲 记 为 
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pa(X,) C 1X, Xe Xa} (11.55) 


j- 


输入 





图 11-6 sigmoid 信 度 网 络 结构 图 


也 就 是 说 ，pa( 也) 是 随机 向 量 处 满足 下 式 的 最 小 子 集 : 

P(X =x, 1X, = Xi, = Xj) = P(X, = x| pa( X;)) (11.56) 
sigmoid 信 度 网 络 的 一 个 重要 优点 就 是 它 能 清楚 揭示 输入 数据 的 固有 概率 模型 的 条 件 依 赖 。 
特别 地 ， 第 j 个 神经 元 被 激发 的 概率 由 sigmoid 函数 

P(X; = x; | pa(X;)) = of 4 Says: (11.57) 

定义 (参看 式 (11.43))， 其 中 w; 是 从 神经 元 i 到 神经 元 ) 的 突 触 权 值 ， 如 图 11-6 所 示 。 即 是 
条 件 概率 P(X = x; |paCX,) (UR F pal X ATA. Alt, 式 (11.57) 提供 信 度 在 网 
络 中 传播 的 基础 。 

在 sigmoid 信 度 网 络 中 计算 概率 ， 以 下 两 点 值得 注意 : 

1.w; =0， 对 所 有 不 属于 pal X, H X, 

2.wi =0， 对 所 有 i=j 
第 一 点 由 双亲 的 定义 可 得 。 第 二 点 由 sigid 信和 度 网 络 是 有 向 无 圈 图 这 个 事实 可 得 。 

正如 名 字 所 暗示 ，sigmoid 信和 度 网 络 属于 在 文献 (Pearl, 1988 ) 中 被 广泛 研究 的 一 类 信 度 网 
络 8?) 。 它 的 随机 运行 比 Boltzmann 机 稍微 复杂 一 些 。 然 而 基于 局 部 可 用 信息 ， 它 们 确实 可 以 
利用 概率 空间 的 梯度 上 升学 习 。 


sigmoid 信 度 网 络 的 学 习 


令 9 表 示 以 感 兴趣 的 概率 分 布 抽取 的 训练 样本 集 。 假 定 每 一 个 样本 都 是 二 值 的 ， 表 示 一 
定 的 属性 。 训 练 样本 是 允许 重复 的 ， 重 复 的 次 数 与 已 知 的 特定 属性 组 合 通常 发 生 的 概率 成 正 
比 。 为 了 对 从 其 中 抽取 9 的 分 布 进行 建 模 ， 我 们 作 如 下 处 理 : 

1. 用 一 个 状态 向 量 x 的 大 小 决定 网 络 的 大 小 。 

2. 选择 状态 向 量 的 一 个 子 集 ， 记 为 x%。 ， 代 表 训 练 时 的 属性 ， 即 x 代表 可 见 神经 元 ( 即 证 
据 节 点 ) 的 状态 向 量 。 
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3. 用 状态 向 量 x 的 剩余 部 分 ， 记 为 xy, RE ORES IC RERIN BET TP 
算 节 点 ) 的 状态 向 量 。 

对 于 给 定 的 状态 向 量 x， 一 个 sigmoid 信和 度 网 络 的 设计 高 度 依赖 于 可 见 神经 元 和 隐藏 神经 
元 的 排列 方式 。 内 此 可 见 神经 元 和 不 可 见 神经 元 的 不 同 排列 会 导致 不 同 的 构 形 。 

正如 Boltzmann 机 一 样 ， 我 们 导出 sigmoid 信 度 网 络 所 期 望 的 学 习 规 则 时 仍然 最 大 化 对 数 
似 然 函数 ， 而 对 数 似 然 函 数 可 由 训练 集 59 计 算 可 得 。 由 式 (11.45) 定 义 的 对 数 似 然 函数 L(w)， 
为 表达 方便 重 写 如 下 : 





L(w) = >) logP(X, = x) 


x EF 
其 中 w 为 网 络 的 突 触 权 值 向 量 ， 作 为 未 知 的 处 理 。 属 于 可 见 神经 元 的 状态 向 量 x, 是 随机 向 
量 久 .地 一 次 实现 。 今 wi 表示 w 的 第 万 个 元 素 ( 即 从 神经 元 i 到 神经 元 j 的 突 触 权 值 )。 对 


oL(w) P(X, = x.) 


- UK a) Ow, 
下 一 步 我 们 注意 下 列 丙 个 概率 关系 :第 一 个 关系 








P(X, = x,) = 2 P(x = = (x ,区 )) = DPX = = x) (11.58) 
其 中 随机 向 量 X 属于 整个 网 络 ， 而 状态 向 量 x- Xo XE 的 一 次 实现 。 第 二 个 关系 
P(X = x) = P(X = x/X, = x,) P(X, =x) (11.59) 


这 个 关系 定义 联合 事件 入 =x= (x。，x%) 的 概率 。 
根据 这 两 个 关系 ， 我 们 可 以 重新 定义 偏 导 数 9L(w)/9wi 的 等 价 形式 : 





aL(w) P(X =xIX, =x) aP(X = x) 
Ow; ds P(X = x) Iw; (11.60) 
根据 式 (11.43) 我 们 可 写成 
P(X = x) = Io # Da) (11.61) 


其 中 oC) A sigmoid 函数 。 因 此 可 写成 











1 9P(X = xX) 9 9 (4 
P(X = x) dw, a = X) = Fu, 2 lose T Dwyn 
- eld ee) 


其 中 yg (' ) 表 示 sigmoid 函数 RE a “pret. 但 是 ， 从 (11.44) 给 出 的 p(…) 的 





g (w) = o(r)e(- v) (11.62) 
其 中 ol - 0 ) EH -» SK ol) PH o 而 得 到 的 。 因 此 ， 我 们 可 写成 
WKS x) BE D = r Lal 一 7 Sat) (11.63) 


相应 地 ， 将 式 (11.63) 代 入 式 (11.60)， 我 们 得 到 
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AW EDEP = KIX, = xel- % Shaye) nas (11.64) 


Iwa x EF Xa i<j 
为 简单 起 见 ， 我 们 定义 整体 均值 
Or = < of 一 4; Deer) a, > 
= >) P(X = xlX = x9 - 7 Dua Jar (11.65) 


它 代表 神经 元 i 和 7 状态 的 平均 相关 性 乘 以 加 权 因子 g| -4 2.5 MH). KAREA 


有 x, 的 可 能 值 (由 训练 集 9 中 抽取 ) 及 x, 的 所 有 可 能 值 求 得 的 ， 这 里 x, 表示 可 见 神经 元 而 x, 
表示 隐藏 神经 元 。 
在 概率 空间 中 的 梯度 上 升 可 以 由 定义 突 触 权 值 w 的 增 量 改变 ， 


9L.(w) 
Aw: = Iw, = NO; (11.66) 


B F 


来 完成 ， 其 中 1 = e/T 为 学 习 速 度 参数 ，p; 由 式 (11.65) 定 义 。 式 (11.66) 为 sigmoid 信 度 网 络 
的 学 习 规则 。 
sigmoid 信 度 网 络 学 习 过 程 的 小 结 由 表 11-2 给 出 ， 其 中 学 习 是 以 集中 方式 完成 的 ， 即 网 
络 突 触 权 值 的 改变 是 基于 整个 训练 集 作 出 的 。 由 表 11-2 给 出 的 小 结 不 包括 对 模拟 退火 的 使 
用 ， 这 也 是 我 们 置 温 度 了 等 于 1 的 原因 。 但 是 ， 正 如 在 Boltzmann 机 一 样 ， 如 果 期 望 sigmoid 
信 度 网 络 学 习 过 程 更 快 到 达 热 平衡 ， 则 在 学 习 程序 中 可 以 结合 模拟 退火 。 
表 11-2 sigmoid 信和 度 网 络 学 习 过 程 小 结 





和 初始化。 初始 化 网 络 ， 设 置 网 络 权 值 wi 为 [ - a,a] 区 间 内 均匀 分 布 的 随机 数 ; a 的 一 个 典型 值 为 0.5。 

1. 给 定 训练 例子 集 9 ， 和 钉 制 网 络 的 可 见 神经 元 到 x。， 其 中 x.€ 了 。 

2. 对 每 一 个 x。， 在 某 个 运行 温度 了 下 执行 网 络 单独 的 Gibbs 采样 模拟 ， 并 观察 整个 网 络 的 状态 向 量 x 的 结果 。 假 设 
执行 的 模拟 时 间 足 够 长 ， 对 于 训练 集中 的 不 同 例子 ，x 的 取 值 应 该 来 当 给 定 训练 集 对 应 的 随机 向 量 X 的 条 件 分 
布 。 

3. 计算 总 体 平均 值 

ex = D DPX = x1X, = x) mel - % Dwi) 


“Ts fi 
其 中 随机 疝 量 X, 是 的 子 集 ， 且 x= (xix), x 表示 可 见 神经 元 ， 表示 隐藏 神经 元 ，* 是 状态 向 量 x 的 第 1 个 
元 素 ( 即 神经 元 j 的 状态 ) ， 骨 为 神经 元 ; 到 神经 元 7 的 突 触 权 值 。sigmoid 函数 p(' ) 定 义 为 
1 
l + exp(— v) 
4. 网 络 的 每 个 突 触 权 值 wi 的 增加 量 为 Awi = mp ， 其 中 站 是 学 习 率 参数 。 根 据 最 大 似 然 原则 , 这 种 调整 将 沿 梯度 移动 
网 络 的 突 触 权 值 到 似 然 函 数 L(w) 的 一 个 局 部 最 大 值 。 


与 Boltzmann 机 不 同 ， 在 sigmoid 信 度 网 络 学 习 中 仅 需 一 个 阶段 。 这 样 简化 是 因为 状态 向 
量 的 概率 分 布 的 归 一 化 由 sigmoid 函数 p(' ) 对 每 个 神经 元 局 部 完成 ， 而 不 经 过 计算 涉及 所 有 
可 能 的 状态 构 形 前 分 函数 Z 的 困难 。 由 训练 集 9 中 抽取 给 定 的 x 的 值 ， 一 旦 随机 向 量 和 的 
条 件 分 布 已 经 由 Gibbs 抽样 正确 地 建 模 ， 在 Boltzmann 学 习 过 程 的 负 向 阶段 所 起 的 作用 就 被 加 
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BAF of -4 和 .cw ] 所 兰 代 ， 它 涉及 计算 神经 元 i 和 j 的 状态 间 的 总 体 平均 相关 性 ps。 
当 达 到 对 数 似 然 函 数 L(w) 的 局 部 最 小 值 时 ， 这 时 如 果 网 络 学 习 的 是 确定 性 的 映射 ， 则 加 权 


因子 将 变 为 零 ; 否则 它 的 平均 作用 效果 将 不 为 零 。 


在 Neal(1992) 的 实验 结果 表明 ，(1)sigmoid 信和 度 网 络 能 够 对 非 平凡 的 分 布 模型 进行 模拟 
学 习 ，(2) 这 些 网 络 能 够 比 Boltzmann 机 有 更 快 的 学 习 率 ，(3)sigmoid 信 度 网 络 对 Boltzmann 机 


的 这 个 优点 是 因为 消除 学 习 过 程 中 的 负 向 阶段 。 
11.9 Helmholtz 机 
sigmoid 信 度 网 络 提供 一 个 强 有 力 的 多 层 框 架 ， 


用 无 监督 的 方式 表示 和 学 习 我 们 感 兴趣 
的 感知 输入 中 的 高 阶 统计 关系 。 由 Dayan et al. (1995) 和 Hinton et al. (1995) 首 先 描绘 的 


Helmholtz” 机 提供 另 一 个 精巧 的 多 层 框 架 ， 可 以 不 用 Gibbs 抽样 而 达到 同样 的 目的 。 


Helmholtz 机 使 用 两 组 完全 不 同 的 突 触 连 接 集 ， 
如 图 11-7 表示 的 两 层 的 二 值 随机 神经 元 网 络 。 在 图 
11-7 中 的 实 线 表示 前 向 连接 ， 它 们 构成 识别 模型 。 
这 个 模型 的 目的 是 推断 引起 输入 向 量 的 固有 概率 分 
布 。 在 图 11-7 中 的 虚线 表示 反 向 连接 ， 它 们 构成 产 
生 模 型 。 第 二 个 模型 的 目的 是 从 网 络 隐 藏 层 所 捕获 
的 固有 表示 中 重 构 对 原始 输入 向 量 的 逼近 ， 从 而 使 
之 能 以 自 监督 的 方式 和 运行。 识别 模型 和 产生 模型 以 
严格 的 前 馈 方 式 运行 ， 没 有 反馈 ; 它们 只 在 学 习 过 
程 中 相互 作用 。 

Hinton et al.(1995) 描 述 一 个 称 为 “唤醒 - 休眠 ” 
算法 计算 Helmholtz 机 的 识别 权 值 和 产生 权 值 。 正 如 
名 字 所 提示 的 ， 算 法 分 两 个 阶段 : 一 个 “唤醒 "阶段 
和 一 个 “休眠 ”阶段 。 在 “唤醒 ”阶段 ， 网 络 由 识别 权 
值 用 前 向 方式 驱动 。 因 此 在 第 一 个 隐 层 产生 一 个 输 


和信 向量 的 表示 。 接 着 第 二 个 隐 层 产生 对 第 一 个 表示 的 表示 ， 对 其 他 网 络 隐藏 层 依 此 类 推 。 网 
络 不 同 隐藏 层 产 生 的 表示 集 提 供 网 络 对 输入 向 量 的 总 体 表示 。 虽 然 此 时 神经 元 是 由 识别 模型 
的 权 值 驱动 ， 但 在 “唤醒 "阶段 只 有 产生 模型 的 权 值 利用 局 部 可 用 信息 进行 学 习 。 实 际 上 ， 学 


识别 





第 一 隐藏 层 


图 11-7 由 识别 ( 实 线 ) 连 接 和 产生 
(虚线 ) 连 接 的 互 连 神经 元 构成 的 
Helmholtz PLA tA E 


习 过 程 的 这 个 阶段 使 得 总 体 表示 的 每 一 层 在 重建 前 一 层 形成 的 激活 中 都 得 到 提高 。 


在 算法 “休眠 "阶段 ， 识 别 模型 的 权 值 被 禁止 。 网 络 由 产生 权 值 反 向 驱动 ， 从 最 外 面 的 隐 
藏 层 开始 ， 逐 层 反 向 运行 直至 输入 层 。 由 于 神经 元 是 随机 的 这 个 事实 ， 重 复 这 个 过 程 一 般 会 
在 输入 层 产 生 许 多 不 同 的 “幻想 向量。 这些 幻想 提供 网 络 产 生 模 型 关于 世界 的 一 个 无 偏 抽 
样 。 产 生 一 个 “幻想 "之 后 ， 利 用 简单 的 delta 规则 (在 第 3 章 描述 ) 调 整 识别 权 值 ， 使 得 引起 
“幻想 ”的 隐藏 活动 的 恢复 概率 的 对 数 最 大 化 。 如 同 “ 唤 醒 ” 阶 段 一 样 ，“ 休 了 眠 ”阶段 仅 利用 局 部 


可 用 信息 。 


产生 权 值 ( 即 反 向 连接 ) 的 学 习 规 则 依然 使 用 简单 的 delta 规则 。 但 是 ， 这 个 规则 沿 着 一 
种 惩罚 对 数 似 然 函数 的 梯度 而 不 是 对 数 似 然 函 数 的 梯度 。 惩 罚 项 是 真实 的 后 验 分 布 和 识别 模 
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型 所 生成 的 实际 分 布 之 间 的 Kullback-Leibler #4) (Hinton et al., 1995); Kullback-Leibler 散 度 
或 相对 信 在 前 一 章 里 曾经 讨论 过 。 实 际 上 ， 和 无 罚 对 数 似 然 孙 数 是 输入 数据 对 数 似 然 函 数 的 一 
个 下 界 ， 通 过 学 习 过 程 提高 这 个 下 界 。 特 别 地 ， 学 习 过 程 试 图 调整 产生 权 值 使 得 近似 真实 的 
后 验 分 布 尽 可 能 地 靠近 识别 模型 实际 计算 的 分 布 。 很 遗憾 ， 学 习 识 别 模 型 的 权 值 并 不 是 精确 
WORT Ny FART LIP PRR, WE - 休眠 学 习 过 程 不 能 保证 在 所 有 实际 场合 都 成 功 ; 有 时 它 会 失 
败 。 


11.10 平均 场 理论 


前 三 节 所 考虑 的 学 习 机 器 有 一 个 共同 的 特征 : 它们 都 使 用 随机 神经 元 ， 因 此 可 能 导致 学 
习 过 程 很 缓慢 。 在 本 章 的 第 三 部 分 和 最 后 部 分 ， 我 们 研究 利用 平均 场 理 论 为 数学 基础 导出 这 
些 随机 机 器 的 确定 性 逼近 以 加 速 学 习 。 由 于 这 里 讨论 的 随机 机 器 有 不 同 的 结构 ， 相 应 地 使 用 
平均 场 理 论 的 方式 也 不 相同 。 特 别 地 ， 我 们 可 以 验证 在 文献 中 被 研究 过 的 两 种 特殊 方法 : 
1. 相关 性 用 它们 的 平均 场 逼 近 幸 代 ; 
2. 通过 变 分 原理 用 一 个 易 解 模 型 替代 一 个 难 解 模型 。 
方法 2 是 高 度 原则 化 的 ， 因 此 非常 有 吸引 力 。 它 适用 于 sigmoid 信任 网 (Saul et al.1996) 
和 Helmholtz 机 (Dayan et al. ,1995)。 但 是 应 用 方法 2 到 Boltzmann 机 时 非常 复杂 ， 因 为 需要 剖 
分 函数 Z 的 一 个 上 界 。 由 于 这 个 原因 ，Peterson and Anderson(1987) 应 用 第 一 个 方法 加 速 
Boltzmann 学 习 规 则 。 在 这 一 节 我 们 为 第 一 种 方法 提供 理论 基础 ， 第 二 种 方法 在 本 章 后 面 考 
虑 。 
平均 场 逼近 的 思想 在 统计 物理 学 中 是 熟知 的 (Glauber,1963)。 虽 然 不 能 否认 在 随机 机 器 
的 背景 下 期 望 在 所 有 时 刻 知 道 网 络 中 所 有 神经 元 的 状态 ， 但 是 ， 我 们 必须 承认 ， 在 神经 元 数 
目 比 较 大 的 网 络 中 ， 神 经 状态 包含 比 我 们 实际 所 需要 的 多 得 多 的 信息 。 事 实 上 ， 我 们 仅 需要 
知道 神经 元 状态 的 均值 或 神经 状态 对 的 乘积 的 均值 。 
在 一 个 随机 神经 元 里 ， 点 火 机 制 由 随机 规则 描述 。 在 这 种 情况 下 ， 对 我 们 而 言 一 个 合理 
的 要 求 就 是 查询 神经 元 j 的 状态 % 的 均值 。 精 确 地 说 ， 这 个 均值 为 一 种 “ 热 " 平 均 ， 因 为 突 触 
噪声 常常 根据 热 波动 建 模 。 对 任何 事件 ， 令 < x > 表示 x, 的 均值 。 神 经 元 j 的 状态 由 概率 规 
则 
+1 以 概率 P(o) 
yaf 以 概率 1 PC) (11.67) 
描述 ， 其 中 Py) = Tat -077T) (11.68) 
式 中 7 为 运行 温度 。 因 此 我 们 可 以 利用 给 定 的 诱导 局 部 域 w 的 特定 值 表示 均值 < x, > 如 下 : 
<% >= (+ Pv)+(- 1)l1- PC) 
= 2P(v,) -1 
= tanh(v,/2T) (11.69) 
其 中 tanh(w/27) 是 (127) 的 双 曲 正切 函数 。 图 11-8 给 出 均值 <x, > 对 诱导 局 部 域 ， 两 种 
图 。 连 续 曲线 对 应 于 大 于 零 的 某 个 温度 7， 粗 实 线 对 应 于 了 = 0 的 极限 情况 。 在 后 一 种 情 
况 ， 式 (11.69) 取 极限 形式 





< x; >>sgn(v,) 当 了 -0 (11.70) 
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这 对 应 于 McCulloch-Pitts 神经 元 的 激活 函数 。 





图 11-8 BORE <x, > 关于 诱导 局 部 域 w 的 图 ; 粗 实 曲线 
对 应 于 McCulloch-Pitts 神经 元 的 常规 操作 
到 目前 为 止 ， 讨 论 集 中 在 单个 随机 神经 元 这 种 简单 情形 。 对 于 更 常见 的 情形 ， 由 大 量 神 
经 元 组 成 的 随机 机 器 ， 这 是 一 个 困难 得 多 的 任务 。 出 现 困 难 归 因 于 以 下 两 个 因素 的 组 合 : 
。 神经 元 j 的 概率 P(v ) 是 诱导 局 部 域 v 的 非 线性 函数 。 
。 诱导 局 部 域 w 是 一 个 随机 变量 ， 它 受到 和 神经 元 7 的 输入 相连 接 的 其 他 神经 元 的 随 
机 活动 的 影响 。 
大 体 上 可 以 有 把 握 地 说 ， 我 们 还 没有 可 以 利用 的 数学 方法 使 之 精确 评价 随机 机 器 的 行 
为 。 但 我 们 可 以 利用 已 知 的 通称 为 平均 场 逼近 的 近似 方 法 ， 它 常常 产生 良好 的 结果 。 平 均 场 
逼近 的 基本 思想 是 对 网 络 中 每 个 神经 元 / 用 诱导 局 部 域 w 的 平均 替代 神经 波动 w ， 可 表示 为 


a <u >= ( Dwr ) = Dw; < x; > (11.71) 
因此 ， 我 们 可 以 计算 由 N 个 神经 元 构成 的 随机 机 器 的 第 7 个 神经 元 的 平均 状态 < w > ， 正 如 
在 式 (11.69) 对 单个 随机 神经 元 所 做 的 那样 ， 可 写 为 
< 和 > = tanh( 让 wy) "= tanb( 元 < v >) = tanh( 去 2 < x >) (11.72) 
ARB (11.72), FRAT AT LAER RE EAF : 
AEE EKA BRHF HAMMETT FH YH BRE , 
对 j =1，2，…，AN,， 式 (11.72) 表 示 具 有 N 个 未 知 量 < x; > 的 非 线性 方程 组 。 这 个 非 线性 方 
程 组 的 解 是 一 个 易 处 理 的 命题 ， 因 为 未 知 量 是 确定 的 而 不 像 在 原来 网 络 中 它们 是 随机 变量 。 
11.11 确定 性 的 Boltzmann 机 


Boltzmann 机 学 习 与 神经 元 数目 成 指数 关系 ， 因 为 Boltzmann 学 习 规 则 要 求 计算 网 络 中 每 
一 对 神经 元 之 间 的 相关 性 。 因 而 Boltzmann 学 习 需 要 指数 的 时 间 。Peterson and Anderson (1987) 
提出 了 加 速 Boltzmann 学 习 过 程 的 方法 。 该 方法 涉及 用 一 种 平均 场 逼近 替代 Boltzmann 学 习 规 
则 式 (11.53) 中 的 相关 性 ， 可 表示 为 
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approx 


< 4X > = <4 >< x >, Ci = 1,2,2, K (11.73) 
其 中 平均 量 < % > 利用 平均 场 方 程 (11.72) 计 算 。 

利用 刚才 描述 的 方式 迈 近 相 关 性 的 计算 ， 这 种 形式 的 Boltzmann 学 习 称 为 确定 性 的 
Boltzmann 学 习 规 则 。 特 别 地 ， 标 准 的 Boltzmann 学 习 规 则 式 (11.53) 被 逼近 如 下 ， 

Aw; = (U U} - UyU:;) (11.74) 
其 中 OU; MU 分 别 表示 可 见 神经 元 /在 单个 模式 上 ) 处 于 箱 制 和 自由 运行 情况 下 的 平均 输 
出 ,站 是 学 习 率 参数 。 虽 然 Boltzmann 机 使 用 二 值 的 随机 神经 元 ， 但 它 的 确定 性 网 络 却 使 用 
类 似 的 确定 性 神经 元 。 

确定 性 的 Boltzmann 机 比 标准 的 Boltzmann 机 在 学 习 速 度 上 提高 一 至 两 个 数量 级 ( Peterson 
and Anderson,1987)。 但 是 ， 在 它 的 实际 应 用 中 仍 有 两 点 需 注意 : 

1. 确定 性 的 Boltzmann 学 习 规则 只 在 监督 情况 下 有 效 ， 即 当 有 些 可 见 神 经 元 作为 输出 神 
经 元 时 。 无 监督 学 习 完全 不 能 在 平均 场 领域 应 用 ， 因 为 平均 状态 是 自由 运行 概率 分 布 的 一 个 
显著 改进 的 表示 。 

2. 在 监督 学 习 的 情况 下 ， 使 用 确定 性 的 Boltzmann 学 习 限 制 在 仅 含有 一 个 隐藏 层 的 神经 
网 络 (Galland,1993)。 从 理论 上 讲 ， 没 有 任何 理由 不 可 以 用 到 多 个 隐藏 层 ， 但 在 实际 上 使 用 
多 个 隐藏 层 导致 和 第 1 点 中 提 到 的 无 监督 学 习 一 样 的 问题 。 

式 (11.74) 的 确定 性 Boltzmann 学 习 规则 有 一 个 简单 和 局 部 的 形式 ， 这 使 得 它 易于 用 超大 
规模 集成 电路 (VLSI) 硬 件 实现 (Alspector et al., 1991; Schneider and Card, 1993)。 但 是 ， 在 
Schneider and Card(1998) 中 报告 电容 权 值 的 连续 学 习 时 ， 确 定性 的 Boltzmann 机 不 能 忍受 在 学 
习 电 路 中 权 值 存储 电容 器 改变 的 延迟 和 偏差 。 这 是 因为 这 些 内 部 问题 导致 突 触 权 值 偏 移 ， 引 
起 振荡 ， 这 显然 是 不 能 接受 的 。 

11.12 确定 性 的 sigmoid SEMA 

在 11.10 节 描 述 的 平均 场 副 近 的 本 质 在 于 用 随机 变量 均值 的 函数 逼近 随机 变量 函数 的 均 
值 。 对 Boltzmann 机 的 逼近 ， 由 前 一 节 讨 论 可 知 ， 平 均 场 理论 的 这 个 观点 只 有 在 限制 情况 下 
有 用 。 这 一 节 我 们 描绘 平均 场 理 论 的 另 一 个 观点 ， 它 适合 于 sigmoid 信和 度 网 络 的 逼近 。 基 本 
上 ， 在 这 里 发 现 对 一 个 难 解 模型 经 过 变 分 原理 可 由 一 个 易 解 模型 进行 通 近 (Saul et al. , 1996; 
Jordan et al. ,1998)。 一般 说 来 ， 易 解 模 型 的 特点 就 是 降低 难 解 模 型 的 自由 度 。 针 对 特定 问题 
设计 出 适宜 的 所 谓 变 分 参数 ， 扩 展 难 解 模型 使 之 包括 这 些 附 加 人 参数， 这样 就 可 以 完成 自由 度 
的 降低 。 这 些 术 语 来 自 植 根 于 变 分 法 技术 的 使 用 (Parisi, 1988)。 


对 数 似 然 函 数 的 下 界 
我 们 讨论 的 出 发 点 是 式 (11.58) 中 的 概率 关系 ， 这 里 以 对 数 形式 重 写 如 下 : 
logP(X, = x) = log 5) P(X = x) (11.75) 


% 
如 同 在 11.8 节 ， 我 们 剖 分 随机 向 量 X 成 入 MX, SX, 对 应 于 可 见 神经 元 ， 而 X 对 应 于 
隐藏 神经 元 。 随 机 向 量 义 ，X, AIX, 的 实现 分 别 记 为 x，x。，xp。 现 在 ， 式 (11.75) 中 要 求 概 
率 和 的 对 数 是 很 难处 理 的 。 注 意 对 任何 条 件 分 布 0(Xs = x 1X = x%,)， 我 们 可 以 将 式 (11.75) 
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重 写 成 不 同 但 等 价 的 形式 ， 这 样 我 们 就 可 以 克服 这 个 困难 : 
logP(X, = x,) = log 2% = x, | X, = low ot x Ei x)! (11.76) 


这 个 等 式 写成 这 种 形式 是 为 了 应 用 前 一 章 讨 论 的 Jensen 不 等 式 。 Apam 应 用 ， 我 们 获得 下 界 : 
logP(X, = x) = 21% = Xp 1X, = x, )log| ae = X Xei =! 
考虑 到 平均 场 理 论 ， 今 后 我 们 将 把 逼近 分 布 O(X, = x, 1X, = x, ) 称 为 平均 场 分 布 。 
我 们 感 兴趣 的 是 对 数 似 然 函数 的 公式 。 在 sigmoid 信和 度 网 络 时 ， 对 数 似 然 函 数 L(w) 的 定 
义 是 对 所 有 x,( 由 训练 集 了 决定 ) 求 和 ， 因 而 网 络 使 用 集中 式 算法 。 我 们 将 使 用 不 同 策略 求 
sigmoid 信 度 网 络 的 平均 场 逼 近 。 特 别 是 ， 将 采用 串 行 运算 方式 ， 对 数 似 然 函 数 的 计算 是 在 
一 个 一 个 例子 的 基础 上 进行 的 ， 表 示 为 
L£(w) = logP(X, = x,) (11.78) 
其 中 w 为 网 络 权 值 向 量 。 对 独立 同 分 布 的 (iid YH, KRRIT RR BE (w) EXT EBL 
据点 的 只 (w) 项 的 和 。 这 样 情况 下 ，L(w) 的 定义 基本 上 和 %(w) 等 价 。 一 般 利 用 9f(w) 可 以 提 
供 L(w) 的 一 个 逼近 。 
串 行 或 在 线 学 习 方式 已 经 变 成 了 神经 网 络 设 计 的 标准 方式 ， 这 主要 由 于 它 的 实现 简单 。 
因而 依据 式 (11.78) ， 可 以 写成 
= x) 


£0) = Do = IX = wheel ex I ETS 








(11.77) 





或 等 价 地 ， 
L(w)>- 2 Q(X = x 1X, = x, )logQ(X = x |X, =x) 
次 


+ >) Q(X, = x |X, = x, )logP(X = x) (11.79) 


Xg 
式 (11.79) 右 边 第 一 项 为 平均 场 分 布 0(X, = xs 1X =x, A; AEE AAA. gi 
是 就 隐藏 神经 元 的 所 有 可 能 状态 对 logP(X =x) 的 求 平均 。 在 单位 温度 ， 由 11.2 节 中 对 Gibbs 分 
布 的 讨论 ， 注 意 sigmoid 信和 度 网 络 的 能 量 是 -logP(X=x)。 从 式 (11.61) 我 们 有 (对 T=1) 
P(X = x) = Hels Zuya ) 
随 之 有 E =- logP(X = x) = - Diesela; Di) (11.80) 


使 用 sigmoid 函数 的 定义 


_ 1 _ exp(v ) 
(v) = 1+exp(—v) ~ 1 + exp(v) 


因而 可 以 把 sigmoid 信和 度 网 络 的 能 量 函 数 表示 为 
~ 2 Dist + Dlog(l+% > i) (11.81) 


除去 一 个 乘 数 因子 1/2, (11. 81) 的 右边 第 一 项 可 以 看 成 一 个 Markov 系统 ( 即 Boltzmann 机 ) 
的 能 量 函 数 ， 但 是 第 二 项 对 sigmoid 信 度 网 络 是 惟一 的 。 
式 (11.79) 的 下 界 对 任何 平均 场 分 布 OCX, =x, X, =x, ABER. (HE, WTR AL 
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它 ， 必 须 选 择 分 布 使 得 可 以 估计 这 个 界 。 这 仅 需要 选择 析 因 分 布 (Saul et al. , 1996) 
Q(X, = % 1X, =x) = PP wed -y)'4 (11.82) 
JEH 
其 中 兴 表 示 所 有 隐藏 神经 元 的 集合 ， 且 它们 的 状态 为 独立 的 具有 可 调 均值 u 的 Bernoulli 变量 
(一 个 Bemoulli(0) 定 义 为 取 值 1 的 概率 为 8 的 二 值 随机 变量 )。 因 此 ， 将 (11.82) 代 人 到 式 
(11.79) 我 们 得 到 (经 过 化 简 ): 


E(w) >- SD [i logu, + (1 = p; )log(l - 万) 
je 
+ 2a eh 一 2 < log[ 1 + exp( 之 wx) | > (11.83) 


其 中 用 < 、 > 表示 关于 平均 场 分 布 的 总 体 平均 ， JE 光 表 示 / 是 一 个 隐藏 神经 元 。 式 (11.83) 右 
边 第 一 项 是 平均 场 炉 ， 第 二 项 为 平均 场 能 量 。 这 两 项 都 是 关于 式 (11.82) 的 析 因 分 布 的 。 
遗憾 的 是 ， 我 们 仍然 有 一 个 难 解 问题 : 精确 计算 < log[ 1 + exp(z )] > 形式 的 均值 是 不 可 
能 的 。 这 项 出 现在 (11.83) 中 ， 包 含 
z = = 20 (11.84) 


为 了 克服 这 个 困难 ， 我 们 重新 利用 Jensen 不 等 式 得 导 到 一 个 界 。 首 先 ， 对 任何 随机 变量 z 和 
任何 实数 各， 把 < log[ 1 + exp(z)] > 表示 成 等 价 的 另 一 种 形式 

< log(1 + e) > = < logleSie Si (14 的)] >= & < z > 4+ logle i + e575] > 

(11.85) 

RP <z> H z 的 总 体 平 均 。 其 次 ， 和 以 前 使 用 的 Jensen 不 等 式 相 比 ， 我 们 反方 向 使 用 它 ， 
这 样 可 以 得 到 式 (11.85) 右 边关 于 平均 值 的 一 个 上 界 - 

1 <log(l +) >g <z >+log ce eH +e ys > (11.86) 
在 式 (11.86) 中 置 & =0， 我 们 获得 标准 界 

< log(l + ) >g logg< 1+ > 

在 式 (11.86) 中 人 允许 使 用 非 零 值 $ ， 可 得 均值 < log(1 + é) > 的 一 个 可 能 比 标准 界 更 紧 的 界 
(Seung，1995) ， 如 下 例子 所 示 。 

例 11.3 Gauss 分 布 变量 为 了 说 明 (11.86) 所 描述 的 界 的 用 途 ， 考 虑 一 个 有 具 零 均值 且 
方差 为 1 的 Gauss 分 布 变量 。 对 这 个 特殊 情况 ，< log(1+ et) > 的 精确 值 是 0.806。 在 (11.86) 
所 描述 的 界 为 [e*”+ er ]， 在 &=0.5 时 取得 最 小 值 0.818。 这 个 界 比 &=0 时 的 标准 界 
0.974 紧 紧 地 接近 真实 值 (Saul et al. , 1996 )。 | 

回 到 目前 的 问题 ， 将 式 (11.85) 和 (11.86) 代 入 式 (11.83)， 得 到 证 据 X, = x, 的 瞬时 对 数 
似 然 函 数 的 一 个 下 界 如 下 : 

£ (w) > - 24 [plog + (1 - p; )log(1 — p)] 


+ SE. wiy -Ẹ)- 2, log < exp(— &z) + exp((1 - &)z;) > (11.87) 


其 中 z 由 式 (11.84) 定 义 。 这 是 在 一 个 一 个 例子 的 基础 上 计算 对 数 似 然 夯 数 2(w) 的 一 个 理想 
的 界 。 
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sigmid 信和 度 网 络 平均 场 逼近 的 学 习 过 程 


在 导出 式 (11.87) 的 界 时 我 们 引 人 了 两 组 变 分 参数 : (GOH) ME (对 所 有 j), BRAR 
体 指定 它们 。 这 些 都 是 可 调 参数 ， 既 然 目标 是 最 大 对 数 似 然 函数 光 (w) ， 我 们 自然 选择 jy 和 
E, 的 值 使 得 它们 最 大 化 (11.87) 的 右边 表达 式 。 为 了 这 一 点 我 们 使 用 Saul et al. (1996) 描 述 的 
PYLE ERLE 

考虑 第 一 种 情形 : 均值 几 固定 ， 而 要 求 寻找 参数 & 的 值 使 之 产生 对 数 似 然 函数 站 (w) 的 
最 紧 的 界 。 这 里 我 们 注意 ， 式 (11.87) 右 边 的 表达 式 没有 耦合 属于 网 络 不 同 神经 元 的 5 的 项 。 
因此 ， 关 于 8 求 表达 式 的 最 小 值 归 结 为 在 [0，1] 上 求 N 个 独立 的 最 小 值 ， 这 里 ON 为 网 络 神 
经 元 的 总 体 数目 。 

考虑 第 二 种 情形 : 8 的 值 固定 ， 要 求 寻找 均值 使 之 产生 对 数 似 然 函 数 (w) 的 最 紧 的 
界 。 为 此 我 们 引入 下 列 定义 : 


K, =- 3, 08 < expl- 8) + exp((1 = &)z,) > (11.88) 


其 中 随机 变量 2, 由 式 (11.84) 定 义 。 给 定 证 据 ( 样 本 )x,E9， 偏 导数 K; 提 供 神 经 元 i 的 状态 x 
对 神经 元 j 的 状态 x; 的 亲缘 影响 的 一 种 度量 。 由 sigmoid 信和 度 网 络 突 触 权 值 的 定义 ， 只 有 当 
状态 a, ERE v 的 双亲 时 KK; 才 不 为 零 。 利 用 式 (11.82) 的 析 因 分 布 ， 我们 可 以 求 得 ( -sz ) 
和 exp((1 -名 )z) 的 整体 均值 ， 从 而 求 出 偏 导数 K, KEHE KK 的 公式 在 表 11-5 给 出 。 有 
了 KK; 的 值 ， 我 们 可 以 继续 对 固定 的 & 寻找 参数 p 值 以 最 大 化 对 数 似 然 函 数 了 (w) 的 过 程 。 
特别 ， 对 pj 求 式 (11.87) 的 微分 ， 令 微分 值 为 0， 重 新 调整 项 后 我 们 得 到 


iogl 5 = 2 [wip + wlm; — &) + K] 
i<j 


可 写成 等 价 的 形式 
w = OC Dlws + my (us E) + Ky]) 对 jE (11.89) 


其 中 (+) AE sigmoid 函数 。 方 程 (11.89) 称 为 sigmoid 信 度 网 络 的 平均 场 方程 。 在 这 个 方程 中 
sigmoid 函数 的 变量 构成 神经 元 j 的 所 谓 Markov 层 ， 它 组 成 如 下 : 

。 神经 元 j 的 双亲 和 孩子 ， 分 别 由 项 wiu: 和 wypy 表 示 。 

。 神经 元 的 孩子 的 其 他 双亲 ， 通 过 偏 导 数 K; 继 承 。 
图 11-9 表示 神经 元 j 的 Markov 层 ,“Markov 层 " 的 思想 由 Pead(1988) 引 入 ; 它 说 明神 经 元 j 
的 有 效 输 入 由 它 的 双亲 、 孩 子 和 孩子 的 双亲 这 些 项 组 成 。 

虽然 作为 真实 后 验 分 布 P(X, = x,!X, = 三 ) 的 一 个 通 近 ， 在 式 (11.82) 中 选择 析 因 分 布 并 
不 精确 ， 但 是 平均 场 方程 (11.89) 选 择 参数 jw le 的 最 优 值 使 得 这 个 逼近 尽 可 能 准确 。 这 样 
依次 在 一 个 例子 接 一 个 例子 的 基础 上 计算 对 数 似 然 函 数 &(w) 的 最 紧 平 均 场 界 (Saul et al., 
1996) 。 

在 计算 参数 1&,1 和 i | 的 更 新 值 后 ， 接 着 计算 突 触 权 值 wi 的 修正 ， 使 用 公式 
Aw. = q BO) (11.90) 


F ， 
i 
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神经 元 j 神经 元 j 
的 双亲 的 孩子 





神经 元 f { oe 


的 双亲 
图 11-9 Markov 层 举例 


其 中 是 学 习 率 参数 ，B(w) 是 对 数 似 然 函 数 (w) 的 下 界 ; BD 5B(w) 为 式 (11.83) 右 边 的 表达 
式 。 利 用 这 个 表达 式 ， 直 接 求 取 偏 导数 9B(w)/3w; 的 值 。 
表 11-3 给 出 sigmoid 信 度 网 络 平均 场 逼 近 的 学 习 过 程 的 小 结 。 这 个 表 包 括 计 算 偏 导数 K; 
Hla B(w)/9w; 的 公式 。 
表 11-3 用 于 sigmoid 信和 度 网 络 平均 场 逼近 的 学 习 过 程 
初始 化 。 初 始 化 网 络 权 值 wi 为 [ - a,a] 内 均匀 分 布 的 随机 值 ，a 的 典型 值 为 0.5。 
计算 。 从 训练 集 了 抽取 样本 x。， 进 行 下 列 计算 : 
1. 对 固定 的 | 更 新 1 。 
固定 后 验 分 布 P(Xs = xg 1X, = x, ) 的 析 因 所 近 的 均值 ipsi je ， 最 小 化 下 列 对 数 似 然 函 数 的 界 : 
Bw) =~ Dy [ulogu + (1 -po)log(l = yj] + D ora 
ied “EX 


一 5 D wimib; - >> log < exp(— &z;) + exp((1 ~ &)z,) > 
i je JEH 


i<j 





其 中 = Du 
B8(w) 的 最 小 化 归结 为 在 区 间 [0，1] 内 N 个 独立 最 小 化 。 
2. 对 固定 的 | | 更 新 | 
对 固定 参数 值 15 1 ， 选 代 平 均 场 方程 
万 = of Dol up: + wy(ui - &) + Kyl) 


其 中 


a 
Kj = 一 Jp, 8 < expl- &z) + exp( (1 ~ &)z) > 


Q-0)0- epl- 6wi)) 0 -ep1 - &)w)) 
1 ~ u; + Hiexp( ~ Ew; ) tI- u; + Riexp((1 = £) wg) 





_ < exp((1 ~ &)5) > 
T < exp(- êz) + exp( (i — &)z) > 


= 
2% = > WX; 


i<j 
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( 续 ) 

函数 oA sigmoid 函数 

1 

PO) = Fap) 
3. 突 触 权 值 修 正 。 

FSR ME RA, HS RATT Aw, 的 修正 量 

aB 
其 中 是 学 习 率 参数 ， 且 

aR(w) O = 86 mjexp(~ Gwe) 6) (1 -miop ~ E) uy) 





Iw, 7T (第 一向) + 


其 中 6 已 定义 。 更 新 突 触 权 值 : 


1 一 有 + Hiexp( — &wi) l- pi + Hiexp( (1 - &) wy) 


wi <— wi + Aw; 
. 对 训练 集 循环 。 
对 包含 在 训练 集 的 所 有 训练 样本 进行 循环 ， 从 而 最 大 化 它们 的 似 然 函 数 到 一 个 固定 迭代 次 数 ， 或 者 直到 过 拟 合 发 
生 ， 例 如 用 交叉 验证 方法 检查 出 过 拟 合 问题 。 


D 





11.13 确定 性 退火 


现在 进 人 本章 最 后 一 个 论题 ， 确 定性 退火 。 在 11.5 节 我 们 讨论 模拟 退火 ， 这 个 随机 松 
弛 技巧 提供 解决 非 凸 优化 问题 的 一 个 强 有 力 方法 。 但 是 必须 仔细 选择 退火 进度 表 。 特 别 地 ， 
只 有 当 退 火 温度 的 下 降 率 不 比 对 数 更 快 时 ， 全 局 最 小 才能 得 到 保证 。 这 种 要 求 使 得 在 许多 应 
用 中 用 模拟 退火 变 得 不 现实 。 模 拟 退 火 的 运行 是 在 能 量 曲面 (地 形 ) 上 进行 随机 移动 。 相 反 ， 
在 确定 性 退火 时 ， 随 机 性 以 某 种 形式 结合 到 能 量 或 代价 函数 里 ， 因 此 在 一 系列 下 降温 度 情况 
下 进行 确定 性 最 优化 (Rose et al. ,1990; Rose, 1998); 不 要 把 确定 性 退火 和 平均 场 退火 (这 个 术 
语 常用 来 表示 确定 性 Boltzmann 机 ) 混 淆 。 

下 面 我 们 在 无 监督 学 习 任务 即 聚 类 "… 的 背景 下 ， 叙 述 确定 性 退火 的 思想 。 
通过 确定 性 退火 聚 类 


聚 类 定义 为 对 一 给 定数 据点 集 痢 分 成 子 集 ， 使 得 每 个 子 集 尽 可 能 是 相似 的 。 聚 类 是 典型 
的 非 凸 优化 问题 ， 因 为 实际 上 用 于 聚 类 的 畸变 函数 都 是 输入 数据 的 非 凸 函数 。 同 时 五 变 函 数 
关于 输入 的 曲线 充满 局 部 最 小 ， 这 使 得 求全 局 最 小 变 得 更 为 困难 。 

在 Rose(1991,1998) 中 通过 前 分 的 随机 化 或 等 价 的 编码 规则 的 随机 化 ， 对 聚 类 描绘 一 个 
概率 框架 。 这 里 利用 的 主要 原则 就 是 每 个 数据 点 以 概率 归 为 一 特定 聚 类 ( 子 集 )。 具 体 地 ， 令 
随机 向 量 六 表 示 源 (输入 ) 向 量 , 令 随 机 向 量 了 表示 从 感 兴趣 的 码 本 的 最 优 重 构 (输出 ) 向 量 。 
这 两 个 向 量 的 单独 实现 分 别 记 为 x 和 y。 

对 聚 类 我 们 需要 一 个 轩 变 度量 ， 由 d(x,y) 表 示 。 假 定 d(x,y) 满 足 两 个 希望 的 性 质 ， 
(对 任何 x 它 是 y 的 凸 函 数 ，(2) 当 变 元 有 限时 ， 它 是 有 限 的 。 例 如 ，Euclid 平方 畸变 度量 

d(x,y) = I|x-yll’ (11.91) 
满足 这 种 适度 的 假定 。 对 随机 模式 的 期 望 畸 变 定 义 为 
D = 3) >) P(X = x, ¥ = y)d(x,y) = DP(X=x)- DPY=yIX= x)d(x,y) 


| (11.92) 
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其 中 P(X=x,Y=y) 是 X=x 和 Y=y 联 合 事件 的 概率 。 在 式 (11.92) 的 第 二 个 等 式 ， 我 们 利 
用 联合 事件 概率 公式 
P(X =x,Y = y) = P(Y=y!X =x)P(X = x) (11.93) 
条 件 概率 已 (Y=yIX=xX) 指 联想 概率 ， 即 ， 码 字 向 量 y 联想 源 向 量 x 的 概率 。 
传统 上 通过 对 聚 类 模型 的 自由 参数 ， 即 重建 向 量 y 和 联想 概率 P(Y=ylX=x)， 最 小 化 
期 望 畸 变 D。 这 种 形式 的 最 小 化 产生 "“ 硬 ” 聚 类 解 ， 硬 是 指 源 向 量 x 被 归 人 最 近 的 码 向 量 yo 
另 一 方面 ， 在 确定 性 退火 中 ， 优 化 问题 被 改变 成 寻找 服从 特定 随机 水 平 概率 分 布 ， 使 得 它 最 
小 化 期 望 畸变 。 作 为 随机 水 平 的 一 个 主要 度量 ， 我 们 使 用 Shanon HH, KEM ABA 10.4 节 ) 


H(X,Y) =- >) >) P(X = x, Y = y)logP(X = x, Y = y) (11.94) 
期 望 畸变 的 约束 优化 可 以 表示 成 Lagrange 图 数 
F = D- TH (11.95) 


的 最 小 化 ， 其 中 7 为 Lagrange 乘 子 。 从 式 (11.95) 我 们 观察 到 : 
。 SAR TH, HH RK IL. 
。 对 小 的 了 值 ， 期 望 畸变 D 被 最 小 化 ， 导 致 硬 ( 非 随机 ) 聚 类 解 。 
。 对 中 间 的 7 了 值 ，F 的 最 小 值 提 供 在 粹 五 增加 和 期 望 畸 变 D 减少 之 间 的 折 中 。 
最 为 重要 的 ， 比 较 式 (11.11) 和 式 (11.95) ， 我 们 可 以 确认 表 11-4 所 列 的 约束 聚 类 优化 问 
题 和 统计 力学 之 间 的 对 应 。 根 据 这 种 类 比 ， 我 们 今后 称 7 为 温度 。 


表 11-4 约束 聚 类 和 统计 物理 学 之 间 的 对 应 








约束 聚 类 优化 统计 物理 学 
Lagrange PA F 自由 能 量 F 
期 望 畸变 D 平均 能 量 < E> 
Shannon fj H Wi H 

Lagrange F T 温度 了 


为 了 进一步 了 解 Lagrange 函数 F, FATTER AM 8H(X, YY) 可 以 分 成 如 下 两 项 (参看 式 
(10.25)): 
H(X,Y) = H(X) + H(Y | X) 
其 中 H(X) 为 信 源 米 ，H(Y1IX) 为 在 给 定 源 向 量 义 后 重建 向 量 OR. ARR W(X) 
独立 于 聚 类 的 。 因 此 ， 我 们 可 以 从 Lagrange 函数 F PAU A(X), AE RER 
H(YIX) =- >) P(X =x) D, P(Y = y1X = x)logP(Y =yIX=x) (11.96) 
这 样 突出 联想 概率 P(Y=yIX= x) 的 作用 。 因 此 ， 考 虑 到 约束 聚 类 优化 问题 和 统计 物理 学 之 
间 的 对 应 以 及 11.2 节 描 述 的 最 小 白 由 能 量 原理 ， 我 们 发 现 关于 联想 概率 的 Lagrange 函数 F 
的 最 小 化 导致 Gibbs 分 布 


P(Y =yIX-x) = Fe - acy) (11.97) 
其 中 2Z, 为 当前 问题 的 前 分 函数 ， 定 义 为 
= Deel - any) (11.98) 


当 温 度 7 接近 无 穷 时 ， 我 们 从 式 (11. 97) 发 现 联想 概率 趋向 于 均匀 分 布 。 这 就 意味 着 当 温 度 
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相当 高 时 ， 每 个 输入 向 量 是 相等 地 联想 起 所 有 聚 类 。 这 种 联想 可 以 被 视 作 ”极度 借 糊 "。 在 另 
一 个 极端 ， 当 温度 7 趋 于 零 时 ， 联 想 概 率 趋 近 于 6 函数 。 因 此 ， 当 温度 较 低 ， 分 类 是 “ 硬 ” 
的 ， 每 个 输入 样本 以 概率 1 分 给 最 近 的 码 向 量 。 为 了 寻找 Lagrange PARK F 的 最 小 值 ， 我 们 将 
式 (11.97) 的 Gibbs 分 布 代入 式 (11.92) 和 式 (11.96)， 然 后 将 结果 表达 式 用 到 式 (11.95) 的 
Lagrange 算 子 的 公式 中 。 这 样 做 导致 的 结果 为 (参看 习题 11.22) 


F* = F =- T $, P(X = x)logZ, (11.99) 


pot) 
对 剩 下 的 自由 参数 即 码 向 量 Y， 最 小 化 Lagrange 函数 ， 我 们 置 FP KP y 的 梯度 为 零 。 因 此 ， 
得 到 条 件 


SPA = x, Y = y) jy xy) -0 xhHye% (11.100) 


其 中 为 所 有 码 向 量 的 集合 。 利 用 式 (11.93) 的 公式 和 对 P(X = x) 规 整 化 ， 可 以 重新 定义 这 
个 最 小 化 条 件 为 


N ÈPO = yIX = x) g day) =0 hayes (11.101) 


其 中 联想 概率 PCY = yl X = x) 3011.97) BY Gibbs 分 布 定 义 。 在 式 (11.101) 中 仅 为 了 完整 性 
包括 比例 因子 WN， 这 里 N 为 可 用 样本 的 数目 。 

我 们 现在 可 以 描述 聚 类 的 确定 性 退火 算法 (Rose,1998)。 基 本 上 ， 算 法 由 以 下 两 步 组 成 : 
开始 在 温度 7 为 很 高 值 时 对 码 向 量 最 小 化 Lagrange 函数 F* ， 然 后 在 降低 温度 T 的 同时 跟踪 
最 小 值 。 换 句 话说， 确定 性 退火 运行 时 具有 特定 的 退火 进度 表 ， 温 度 依次 降低 。 对 温度 了 
的 每 一 值 ， 热 行 算法 核心 的 两 步 迭 代 可 描述 如 下 : 

1. 固定 码 向 量 ， 利 用 对 于 给 定 畸 变 度量 d(x,y) 的 式 (11.97) 的 Gibbs 分 布 计 算 联 想 概 率 。 

2. 固定 联想 ， 使 用 式 (11.101) 对 码 向 量 y 最 优化 畸变 度量 d(x,y)。 

这 个 两 步 和 迭代 过 程 对 F“ 单调 不 升 ， 因 此 能 保证 收敛 到 一 个 最 小 点 。 当 温度 7 很 高 时 ， 
Lagrange fF" 相当 光滑 ， 而 且 在 前 面 对 畸 变 度 量 d(x, WIG ERR, Fo 是 y 的 凸 函 
数 。 在 温度 较 高 时 可 以 求 得 F 的 全 局 极 小 。 随 着 温度 降低 ， 联 想 概率 变 “ 硬 ”"， 导 致 一 个 
“HSE” FR) RRS AF 

当 温度 了 按 退 火 进度 表 降 低 ， 系 统 经 历 一 系列 相 变 ， 相 变 由 自然 聚 类 分 叉 组 成 ， 在 分 
叉 处 聚 类 模型 规模 ( 即 聚 类 的 数目 ) 增 加 (Rose et al. ,1990; Rose,1991)。 这 种 现象 由 于 以 下 原 
因而 富有 意义 : 

。 它 提供 控制 聚 类 模型 大 小 的 一 个 有 用 工具 。 

。 正如 通常 的 物理 退火 一 样 ， 相 变 是 确定 性 退火 的 关键 点 ， 此 处 需要 小 心 进行 退火 。 

。 关键 点 是 可 计算 的 ， 因 而 提供 用 于 在 两 个 相 变 之 间 加 速算 法 的 信息 。 

。 最 优 模型 大 小 可 以 确认 ， 通 过 耦合 一 个 确认 过 程 检 验 在 不 同 相位 得 到 的 一 系列 解 ， 

这 些 解 是 表示 模型 规模 ( 即 娶 类 的 数目 ) 逐 渐 升 高 的 解 。 

例 11.4 图 11-10 和 图 11-11 举例 说 明 随 温度 7 下 降 或 温度 倒数 B= 17 的 上 升 ， 确 定 
性 退火 在 不 同 相 位 时 聚 类 解 的 演化 ， 产 生 这 些 图 所 使 用 的 数据 集 由 6 个 Gauss 分 布 混合 而 
成 ， 它 们 的 中 心 都 以 X 标 识 。 计 算 所 得 聚 类 的 中 心 都 以 o 标 识 。 由 于 聚 类 解 在 非 零 温度 不 是 
“ 硬 ” 分 类 的 ， 这 个 随机 人 划分 在 图 中 由 属于 该 聚 类 的 等 概率 一 一 如 概率 为 1/3 的 围 线 所 描绘 。 
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图 11-10 不 同 相位 的 聚 类 。 画 线 是 等 概率 围 线 ， 在 b) 中 p= 112， 其 余 情况 下 p= 1/3 
a)l 个 聚 类 (了 = 0) b)2 HRA B= 0.0049) 
c)3 SHEA (B = 0.0056) d)4 个 聚 类 (B = 0.0100) 
e)5 个 聚 类 (了 = 0.0156) f)6 个 聚 类 (B = 0.0347) 
g)19 个 聚 类 (有 = 0.0605) 
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这 个 过 程 开始 只 有 一 个 自然 售 类 (图 11-10a) 包 括 所 有 训练 集 。 在 第 一 次 相 变 ， 它 分 裂 成 两 个 
R(E 11-10b), 然后 经 过 一 系列 相 变 直到 它 达 到 6 个 聚 类 的 自然 集 。 当 所 有 聚 类 都 分 列 
时 ， 下 一 个 相 变 导致 "爆炸 "”。 图 11-11 表示 相位 图 ， 显 示 随 退火 过 程 的 进行 平均 畸变 变量 变 
化 的 情况 ， 以 及 在 每 个 相 阶段 ， 自 然 聚 类 的 数目 。 在 这 个 图 中 ,平均 畸 变 ( 相 对 它 的 最 小 值 
规整 化 ) 是 对 温度 7 的 倒数 即 B( 相 对 于 它 的 最 小 值 规整 化 ) 画 出 的 。 两 个 坐标 轴 都 是 以 它们 


相关 的 对 数 形式 标 出 的 。 
T 
R 
Q 
X 
N 
A 
X 
S 
1 19 
Log[B/Bmin] 
图 11-11 混合 Gauss APPEAL, AE A SB a A RHE H 
和 EM 算法 的 类 比 


为 了 说 明确 定性 退火 算法 的 另 一 个 重要 方面 ， 假 设 我 们 将 联想 概率 P(Y = y1X =x) 看 成 
一 个 二 值 随 机 变量 的 期 望 值 ， 其 中 Vy 定义 为 
1 ABMS x 被 归 人 码 向 量 y 
v= p EN (11.102) 
从 这 个 观点 出 发 ， 我 们 认识 到 确定 性 退火 算法 的 两 步 迭 代 是 第 7 章 描述 的 用 于 最 大 似 然 估 计 
的 期 望 最 大 (EM) 算 法 的 一 种 形式 。 特 别 在 第 一 步 中 计算 联想 概率 ， 我们 有 与 它 等 价 的 求 期 
望 步骤 。 在 第 二 步 最 小 化 Lagrange KA F『* ,我们 有 与 它 等 价 的 最 大 化 步 台 。 
但 在 作 这 种 类 比 时 ， 注 意 确定 性 退火 比 最 大 似 然 估计 是 更 一 般 的 。 我 们 这 样 说 ， 是 因为 
与 最 大 似 然 估 计 不 一 样 ， 确 定性 退火 不 对 数据 的 固有 概率 分 布 作 任 何 假 定 。 事 实 上 ， 联 想 概 


率 是 由 最 小 化 Lagmage 函数 导出 的 。 
11.14 ”小结 和 讨论 

在 这 一 章 中 我 们 讨论 利用 植 根 于 统计 力学 的 思想 作为 优化 技术 表示 和 学 习 机 器 的 数学 基 
础 。 这 里 考虑 的 学 习 机 器 可 分 类 如 下 : 
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。 随机 机 器 ， 例 如 Boltzmann HL. sigmoid 信 度 网 络 和 Helmholtz 机 。 

。 确定 性 机 器 ， 利 用 平均 场 逼 近 从 Boltzmann 机 和 sigmoid 信 度 网 络 导出 。 

Boltzmann 机 使 用 隐藏 的 和 可 见 的 随机 二 值 状态 的 神经 单元 ， 它 巧妙 地 利用 Gibbs 分 布 的 
良好 性 质 ， 从 而 具有 一 些 吸 引 人 的 特征 : 

。 通过 训练 ， 神 经 元 所 显示 的 概率 分 布 和 环境 相 匹 配 。 

。 网 络 提供 一 种 推广 的 方法 ， 可 用 于 搜索 、 表 示 和 学 习 的 基本 问题 (Hinton,1989)。 

。 如 果 退 火 进度 表 在 学 习 过 程 中 足够 慢 ， 则 网 络 保证 找到 状态 能 量 曲面 的 全 局 最 小 值 

(Geman and Geman, 1984) 。 

遗憾 的 是 退火 进度 表 太 慢 以 至 没有 实用 价值 。 但是， 针对 具体 的 Boltzmann 机 学 习 过 程 
可 以 进行 加 速 ， 对 这 些 Boltzmann 机 我 们 无 需 进 行 采 样 算法 或 者 应 用 平均 场 逼近 。 特 别 地 ， 
如 果 Boltzmann 机 隐藏 神经 元 是 链 状 或 树 状 以 及 它们 的 耦合 对 ， 学 习 可 在 多 项 式 时 间 完 成 。 
之 所 以 能 取得 这 样 的 结果 ， 是 因为 应 用 了 统计 力学 中 熟知 的 “抽取 ”算法 ， 它 是 一 个 简单 而 精 
致 的 过 程 ， 非 常 像 求解 电阻 电感 电容 (RLC) 电 路 一 样 ， 从 图 中 递归 地 删除 连接 和 节点 (Saul 
and Jordan, 1995, 1996)。 

sigmoid 信 度 网 络 给 出 Boltzmann 机 的 一 个 重要 改进 ， 它 消除 学 习 过 程 中 的 负 向 (自由 运 
行 ) 阶 段 。 这 是 由 于 它们 不 用 Boltzmann 机 中 对 称 连接 而 使 用 有 向 无 圈 连 接 。 也 就 是 说 
Boltzmann 机 是 一 种 具有 反馈 的 递归 网 络 ， 而 sigmoid 信和 度 网 络 是 无 反馈 的 多 层 结构 。 正 如 名 
字 所 暗示 的 ，sigmoid 信和 度 网 络 和 由 Pearl( 1988) 首 先 提出 的 经 典 的 信和 度 网 络 非 常 接 近 ， 因 而 
将 神经 网 络 的 研究 和 概率 推理 模型 及 图 形 模型 联系 起 来 (Jordan ,1998; Jordan et al. ,1998)。 

Helmholtz 机 又 与 它们 不 同 。 它 的 发 展 受到 视 党 是 图 形 取 反 (Hom, 1997; Hinton & 
Ghahramani, 1997) 的 思想 的 启迪 。 特 别 在 反 向 运行 中 它 使 用 一 个 随机 的 产生 模型 把 一 个 场景 
的 抽象 表示 转化 为 一 个 深度 图 像 。 场 景 的 抽象 表示 ( 即 网 络 自己 关于 世界 的 视觉 知识 ) 是 由 于 

前 向 运行 的 随机 识别 模型 学 习 的 。 通 过 识别 模型 和 产生 模型 的 巧妙 结合 ( 即 前 向 / 反 向 投影 )， 

Helmholtz 机 起 到 自 监督 机 的 作用 ， 因 而 不 需要 教师 。 

接着 讨论 确定 性 机 器 ， 确 定性 Boltzmann 机 是 由 Boltzmann 机 导出 的 ， 它 用 两 个 随机 变量 
均值 的 乘积 蔡 代 两 个 随机 变量 乘积 的 均值 ， 这 是 平均 场 逼 近 的 朴素 形式 。 这 样 做 使 得 确定 性 
Boltzmann 机 比 标准 的 随机 Boltzmann 机 快 许多 。 遗 憾 的 是 在 实际 应 用 中 严格 限制 在 仅 含 一 个 
隐藏 层 的 情况 。 在 Kappen and Rodriguez(1998) 中 ， 讨论 到 在 对 Boltzmann 机 正确 应 用 平均 场 理 
论 时 ， 使 用 线性 响应 定理 计算 相关 性 。 这 个 定理 的 本 质 在 于 应 用 其 线性 响应 的 逼近 替代 式 
(11.53) 的 Boltzmann 学 习 规则 中 箱 制 和 自由 运行 时 的 相关 性 。 根 据 Kappen and Rodriguez 
《1998) 的 讨论 ， 新 的 学 习 过 程 可 应 用 于 含有 或 没有 隐藏 神经 元 的 网 络 。 

sigmoid 信 度 网 络 的 确定 性 形式 的 导出 是 应 用 平均 场 理 论 的 另 一 个 形式 ， 应 用 Jensen 不 等 
式 导 出 对 数 似 然 函 数 的 一 个 严格 下 界 。 进 一 步 ， 以 一 种 原则 化 的 方式 利用 易 处 理 的 子 结构 优 
点 ， 理 论 上 使 得 这 类 神经 网 络 成 为 信和 度 网 络 之 外 的 另 一 种 重要 网 络 类 型 。 

在 本 章 我 们 还 讨论 两 个 优化 技术 : 模拟 退火 和 确定 性 退火 。 模 拟 退火 的 突出 点 在 于 在 能 
量 曲面 上 进行 随机 移动 ， 从 而 使 得 退火 进度 表 非 常 慢 ， 这 样 使 得 在 许多 应 用 中 无 法 实际 使 
用 。 相 反 ， 确 定性 退火 将 随机 性 耦合 到 代价 函数 中 ， 从 一 个 较 高 温度 开始 ， 然 后 逐渐 降低 ， 
在 每 个 依次 的 温度 对 目标 函数 进行 确定 性 的 优化 。 但 是 ,注意 模 拟 退火 保证 到 达 全 局 极 小 ， 
而 确定 性 退火 还 没有 找到 这 种 保证 。 
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本 章 中 我 们 虽然 强调 应 用 优化 技术 和 随机 机 器 解决 无 监督 学 习 任务 ， 但 如 果 需 要 也 可 以 


应 用 于 监督 学 习 任务 。 
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大 地 简化 了 讨论 ， 是 和 热力 学 极端 重要 关系 的 基础 。 当 一 个 整体 系统 在 相位 以 刚才 描 
述 的 方式 分 布 ， 即 当 概 率 (P) 指 标 是 能 量 (e) 的 线性 函数 ,我们 将 说 整体 是 典型 分 布 
的 ， 称 能 量 的 除数 H 为 分 布 的 模 。” 
在 物理 文献 中 ， 式 (11.3) 通 常 称 为 典型 分 布 (Reif，1965) 或 Gibbs 分 布 (Landau and 
Lifschitz,1980) 。 在 神经 网 络 文献 中 称 为 Gibbs 44. Boltzmann 分 布 和 Boltzmann-Gibbs 分 
布 。 
引入 温度 和 模拟 退火 到 组 合 优化 问题 的 想法 是 由 Kirkpatrick, Gelatt and Vacchi( 1983) = 
人 和 Cemy(1985) 独 立 提出 的 。 
在 物理 环境 中 ， 退 火 是 自然 界 的 一 个 精细 的 过 程 。Kirkpatrick 等 在 1983 的 文章 中 讨论 
“熔化 ”一 个 固体 的 概念 ， 这 涉及 升 高 温度 到 一 个 最 大 值 使 得 固体 的 所 有 粒子 处 于 液态 
时 能 够 随机 地 运动 。 接 着 降低 湿度， 使 得 所 有 粒子 调整 到 具有 低能 基态 的 相应 格 点 。 
如 果 冷 却 太 快 ， 也 就 是 说 ， 在 每 一 温度 ， 固 体 没有 足够 时 间 达 到 热平衡 ， 这 样 得 到 的 
晶体 会 有 许多 缺陷 ， 或 物质 将 形成 无 晶体 序 的 玻璃 体 并 且 仅 为 局 部 最 优 结构 的 亚 稳 态 。 
“熔化 "这 个 概念 对 于 思考 玻璃 体 可 能 是 正确 的 方法 ， 或 许 对 考虑 组 合 优化 问题 的 计算 
也 有 帮助 。 但 是 当 讨论 许多 其 他 应 用 领域 时 会 失误 (Beckerman,1997)。 例 如 ， 在 图 像 处 
理 中 ， 如 果 我 们 升 高 温度 使 得 所 有 粒子 能 够 随机 地 调整 自己 的 位 置 ， 就 会 丢失 图 
像 一 一 变 成 均匀 灰 度 。 在 相应 的 冶金 学 意义 上 ， 当 退火 铁 或 钢 时 ， 我 们 必须 保证 退火 
温度 低 于 熔点 ; 否则 将 会 毁坏 样本 。 

有 儿 个 控制 治 金 退 火 重要 的 参数 : 

。 退火 温度 ， 指 示 金 属 或 合金 加 热 到 什么 温度 。 

。 退火 时 间 ， 指 定 保持 提高 温度 后 的 时 间 长 度 。 

。 退火 进度 表 ， 指 定 温度 下 降 的 速度 。 
在 描述 退火 进度 表 的 小 节 中 可 以 发 现 , 这 些 参 数 在 模拟 退火 里 能 找到 和 它们 相对 应 的 
部 分 。 : 
Langevin 方程 (具有 时 变温 度 ) 提 供 了 另 一 个 由 Grenander(1983) 提 出 的 全 局 最 优化 算法 的 
基础 ， 随 后 由 Gidas(1985) 进行 了 分 析 。Langevin 方程 是 随机 微分 方程 ， 描 述 为 (Reif， 
1965) 





+ s) 








=~ yo(t) + r(t) 
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[4] 


[5] 


[6] 


[9] 


其 中 oe QARATHERP REA m 的 粒子 的 速度 ，7 为 常数 ， 等 于 磨擦 系数 和 质量 m 
的 比值 ，T'( 1 ) 为 每 单位 质量 的 波动 力 。Langevin 方程 是 描述 非 平衡 热 动 力学 的 第 一 个 
数学 方程 。 
对 更 复杂 的 和 理论 上 的 退火 进度 表 ， 参 看 书 藉 Aarts and Korst( 1989, pp.60 -75) 和 van 
Laarhoven and Aarts(1988, pp.62 — 71). 
Gibbs 抽样 在 统计 物理 中 称 为 Metropolis 算法 的 “ 热 浴 ” 形 式 。 自 从 在 Geman and Geman 
(1984) 及 Gelfand and Smith( 1990) 的 文献 中 正式 出 现 以 后 ， 它 被 广泛 应 用 于 图 像 处 理 、 
神经 网 络 和 统计 学 。 后 一 篇 文章 还 讨论 抽样 (或 Monte Carlo) 的 其 他 方法 ， 这 些 方 法 基 
于 对 边缘 概率 估计 的 数值 计算 。Hastings(1970) 给 出 了 Metropolis 算法 的 推广 ， 而 Gibbs 
抽样 仅 是 它 的 特例 ， 提 到 了 它 在 解决 统计 中 数值 问题 的 潜在 应 用 。 
Boltzmann 机 的 可 见 神 经 元 可 以 被 分 成 输入 和 输出 神经 元 。 在 第 二 种 结构 中 Boltzmann 机 
是 在 教师 监督 下 进行 联想 ， 输 入 神经 元 从 环境 接受 信息 而 输出 神经 元 报告 计算 结果 给 
最 终 用 户 。 
式 (11.39) 的 表达 式 适 合 于 Boltzmann 机 的 “ 开 ” 和 “ 关 ” 状 态 分 别 用 + 1 和 - 1 表示。 如 果 
机 器 利用 1 和 0 分 别 表示 “ 开 ” 和 “ 关 ” 状 态 ， 我 们 有 

E(x) =- 5 D wni; 
fe St, XTR Kullback - Leibler 散 度 用 作 Boltzmann 机 的 性 能 指标 (Ackley et al., 
1985; Hinton and Sejnowski, 1986)。 这 个 标准 提供 环境 和 物理 内 部 模型 之 间 的 差异 的 度 
量 ， 定 义 为 


D,: ll; = © pilos{ =) 

其 中 pi 为 网 络 被 箱 制 时 可 见 神经 元 在 状态 a 的 概率 ，p- 为 网 络 自由 运行 时 可 见 神经 
元 在 状态 a 的 概率 。 网 络 突 触 权 值 被 调整 ， 使 Dy || 9; 达到 最 小 ; 参看 习题 11.10。 
当 应 用 于 训练 集 时 ， 最 小 化 Kullback - Leibler 散 度 原 则 和 最 大 似 然 原 则 基本 上 等 价 。 为 
了 看 清 这 个 等 价 性 ， 我 们 注意 两 个 分 布 /和 8 的 Kullback - Leibler 之 间 散 度 由 

De =- H(f) - Dd) flog(g) 
给 出 。 如 果 分 布 了 由 训练 集 确定 ， 给 定 g 的 一 个 优化 模型 ， 第 一 项 是 常数 ， 第 二 项 则 
是 负 的 对 数 似 然 函数 。 因 此 最 小 化 Kullback - Leibler 散 度 是 和 最 大 似 然 等 价 的 。 


信 度 网 络 最 初 是 为 了 表示 专家 系统 中 的 概率 知识 而 引入 的 。 在 文献 中 它们 也 指 Bayes 
网 络 。 


[10] Helmholtz 机 属于 以 前 向 投影 和 反 向 投影 为 特征 的 一 类 神经 网 络 。 前 向 投影 的 思想 起 源 


于 Grossberg(1980) 的 自 适应 共振 理论 研究 ; 也 可 参看 Carpenter and Grossberg(1987)。 在 
这 个 模型 中 ， 前 向 自 适应 滤波 结合 反 向 模板 匹配 ， 使 得 产生 自 适应 共振 ( 即 放 大 和 延长 
神经 活动 )。 与 Grossberg 的 自 适应 共振 理论 相反 ， 对 于 试图 准确 捕获 输入 数据 的 固有 结 
构 的 产生 模型 Helmholtz 机 利用 统计 方法 把 自 监督 学 习作 为 一 种 确定 产生 模型 的 方法 。 
另 一 个 紧密 相关 的 工作 是 Luttrel(1994,1997) 的 工作 。 在 Luttrell (1994) 的 工作 中 ， 提 出 
了 “ 折 秋 Markov $£” (folded Markov chain, FMC) 的 思想 。 特 别 ， 一 个 Markov 链 前 向 转移 之 
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后 ， 紧 接着 利用 同样 的 链 按 反 向 进行 逆转 移 (利用 Bayes 定理 )。 在 Luttrel(1997) 中 ， 讨 
论 FMC 和 Helmholtz 机 的 关系 。 
另外 一 些 相关 工作 包括 诸如 Kawato et al.(1993) 的 工作 ， 其 中 考虑 以 与 Helmholtz 机 相似 
但 没有 概率 关系 的 方式 前 向 (识别 ) 模 型 和 反 向 (产生 ) 模 型 ， 以 及 Mumford(1994) 关 于 映 
射 Grenander 产生 模型 到 人 脑 中 的 提议 。 
在 Dayan and Hinton(1996) 中 ， 提 及 大 量 不 同 种 类 的 包括 监督 方法 的 Helmholtz 机 。 

[11] 确定 性 退火 已 成 功 应 用 到 许多 学 习 任务 : 
。 向 量 量化 (Rose et al. ,1992; Miller and Rose, 1994) 
。 统计 分 类 设计 (Miller et al. , 1996) 
。 利用 混合 专家 的 非 线 性 回归 (Rao et al. ,1997a) 
。 隐藏 Markov 模型 的 语音 识别 (Rao et al. ,1997b) 
一 个 隐 Markov 模型 类 似 于 Markov 链 ， 因 为 它们 从 一 个 状态 转移 到 另 一 个 状态 都 是 根据 
概率 的 。 但 它们 有 一 个 重要 区 别 ， 在 Markov 链 中 ， 输 出 符号 的 产生 是 确定 的 。 另 一 方 
面 ， 在 隐 Markov 模型 中 ,输出 符号 是 概率 性 的 ， 这 样 所 有 符号 都 可 能 达到 每 一 状态 。 
因此 对 隐 Markov 模型 的 每 一 状态 ,我 们 有 所 有 输出 符号 的 概率 分 布 。 隐 Markov 模型 的 
讨论 可 参见 Rabiner(1989) Rabiner and Juang(1986) 和 Jelinek(1997)。 


习题 
Markov 链 p p p 


11.1 从 状态 i 到 状态 j 的 n A = © g EY 
步 转移 概率 记 为 py 。 利 用 归纳 法 一 © í 2 & O ® 
证 明 
ps” ) = Xp apy 

11.2 图 11-12 表示 随机 行走 
过 程 的 状态 转移 图 ， 其 中 转移 概率 
p 大 于 零 。 图 中 所 示 的 无 限 长 ， — 一 却 aa 
Markov 链 是 不 可 约 吗 ? 说 明 你 回答 — (4) ie @ t : 
的 理由 。 Eg 

1.3 考虑 图 11-13 所 描绘 
Markov 链 ， 它 是 可 约 的 。 找 出 包含 


在 这 个 状态 转换 图 中 的 各 个 状态 DQ 
类 。 

11.4 计算 图 11-14 所 示 的 
Markov 链 的 稳定 态 的 概率 。 Yi 
模拟 技术 

11.5 Metropolis 算法 和 Gibbs 
抽样 器 代表 两 类 不 同 的 模拟 大 规模 ern 


问题 的 技术 。 讨 论 它们 之 间 的 基本 相似 点 和 不 同 点 。 
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11.6 ”本 题 中 考虑 用 模拟 退火 ; 

求解 旅行 商 问题 (traveling salesman — 

problem, TSP), Af RIF : F 
。 NAIT 3 J ee og ) 2 
。 每 两 个 城市 间距 离 为 d ID & n 
。 旅行 路线 为 一 个 闭合 的 路 

径 ， 只 访问 每 个 城市 一 次 \ Pil 

目标 是 寻找 具有 最 小 总 长 度 上 : e 3 

的 旅行 路 线 ( 即 排列 城市 访问 的 顺 G 

序 )。 在 这 个 习题 中 ， 不 同 的 可 能 旅 / 

行路 线 称 为 构 形 ， 而 需 最 小 化 的 代 





价 函 数 为 旅行 路 线 的 总 长 度 。 - 
(a) 设 计 出 一 种 产生 合法 构 形 的 3 
ERTE. 11-4 

(b) 旅 行路 线 总 长 度 定义 为 
Lp = > dpc) P(i+1) 
其 中 P 表示 一 个 置换 且 P(N+1)= P(D。 因此 ， 剂 分 函数 为 
Z= = Se LIT 
其 中 7 为 控制 参数 。 建 立 用 于 TSP 的 模拟 退火 算法 。 
Boltzmann 机 


11.7 考虑 一 个 在 温度 7 运行 的 随机 二 值 神经 元 j。 它 从 状态 % 翻转 到 状态 - % 的 概率 
为 





1 
Plx >- %) = Ty expl- ABT) 
其 中 AK, 为 翻转 所 导致 的 能 量 改 变 。Boltzmann 机 的 总 能 量 定义 为 


Ba Ņ Dues 


其 中 w, HARAT i 到 神经 元 / 的 突 触 权 值 ， A i = ws 和 wa =0。 

(a) 证 明 AE, = -2x0,, EP o, 为 神经 元 j 的 诱导 局 部 域 。 

(b) 因 此 ,证 明神 经 元 j 从 初 态 x, = - 1 翻转 到 x = +1 的 概率 为 1/1 + exp( -2v/T))。 

(c) 证 明 当 神经 元 j 从 初 态 为 + 1 BBR - 1 时 (b) 中 的 公式 仍然 正确 。 

11.8 ”推导 式 (11.49) 中 对 数 似 然 函 数 L(w) 关 于 Boltzmann 机 突 触 权 值 wi 的 导数 公式 。 

11.9 Gibbs 分 布 可 以 利用 自 完备 的 数学 方法 推导 出 ， 而 不 依赖 于 统计 物理 的 概念 。 特 
别 地 ,一 个 两 步 Markov 链 模型 的 随机 机 器 可 用 来 导出 形成 Boltamann 机 特殊 性 质 的 假设 
(Mazaika, 1987 )。 这 一 点 也 不 令 人 惊奇 ， 因 为 作为 Boltzmann 机 运行 的 模拟 退火 本 身 具 有 
Markov 性 质 (van Laarhoven and Aarts,1988)。 

考虑 在 一 个 随机 机 器 中 神经 元 的 状态 转移 模型 由 两 个 随机 过 程 组 成 : 
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。 第 一 个 过 程 决定 尝试 哪个 状态 转移 。 

。 第 二 个 过 程 决 定 这 次 转移 是 否 成 功 。 

(a) 表 示 状 态 转 移 概 率 应 为 两 个 因子 的 乘积 ， 即 

Pi = Tigi My zi 

证 明 ps = 1 - Do tag © 

(b) 假 设 尝试 率 和 矩阵 是 对 称 的 ， 

Te = Ty 
并 且 假 设 尝试 成 功 的 概率 满足 互补 条 件 转移 概率 的 性 质 ， 
qi =l- q; 

由 两 个 假设 证 明 Dulyn + gT; ~ r;) = 0。 

(ORE 0， 利 用 问题 (a) 中 的 结果 证 明 gy = CA。 

(qd) 最 后 ， 进 行 变 量变 换 ，E, = - Tlogx; + T, Hh TAT 为 任意 常数 。 由 此 推导 : 
. 1 EY) ,. EY ,.. 1 
(n= zoel -7) Z= Be -F)> Gide =(TagccanTH) WP AEE -E 

(e) 你 能 从 这 些 结果 中 得 出 什么 结论 ? 

11.10 在 11.7 节 我 们 利用 最 大 似 然 函数 作为 推导 式 (11.53) 所 描述 的 Boltzmann 学 习 规 


则 的 准则 。 在 这 个 习题 中 我 们 利用 别 的 准则 重新 考虑 这 个 学 习 规则 。 由 第 10 章 的 讨论 ， 两 
个 概率 p: 和 p; 的 Kullback-Leibler 散 度 定义 为 


D,* jp = op: log P=.) 
其 中 对 所 有 可 能 的 状态 a 求 和 。 概 率 pi 表示 网 络 在 箱 制 ( 正 向 ) 状 态 时 可 见 神经 元 处 于 状态 
a 的 概率 ， 概 率 p> 表示 网 络 在 自由 运行 ( 负 向 ) 状 态 时 可 见 神经 元 处 于 状态 a 的 概率 。 利 用 
D,: | 重新 推导 Boltzmann 学 习 规 则 。 


11.11 考虑 Boltzmann 机 的 可 见 神经 元 分 成 输入 神经 元 和 输出 神经 元 。 这 些 神经 元 的 状 

态 分 别 表示 为 a 和 Y。 隐 藏 神经 元 状态 记 为 B。 这 个 机 器 的 Kullback-Leibler 散 度 定义 为 
Da ll; = DP: E pitoe 2) 

其 中 pe 为 输入 神经 元 在 状态 a RR, ph 为 给 定 输入 状态 a RATTE ERA Y 的 
条 件 概率 ，pye 为 仅 输入 神经 被 箱 制 在 状态 a 时 处 于 热平衡 中 的 输出 神经 元 状态 为 y 的 条 件 
概率 。 和 前 面 的 一 样 ， 加 号 和 减 号 上 标 分 别 表 示 正 向 (第 制 ) 和 人 负 向 (自由 运行 ) 条 件 。 

(a) 对 输入 、 隐 藏 和 输出 神经 元 的 Boltzmann 机 导出 公式 D, | o 

(b) 对 于 这 种 网 络 配置 经 过 重新 解释 相关 性 of 和 of ， 证 明 调 整 突 触 权 值 w; 的 Boltzmann 
学 习 规 则 仍 可 以 被 表示 成 和 式 (11.53) 同 样 的 形式 。 
sigmoid 信和 度 网 络 

11.12 概述 Boltzmann 机 和 sigmoid 信 度 网 络 之 间 的 相似 性 和 差异 。 

11.13 在 习题 11.9 中 ， 我 们 前 明了 Boltzmann 机 可 描述 为 两 步 Markov 链 模型 。sigmoid 
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信 度 网 络 是 否 可 以 描述 为 一 个 Markov 链 模型 ? 说 明 你 的 结论 的 理由 。 

11.14 令 w RA sigmoid 中 从 神经 元 i 到 神经 元 j 的 突 触 权 值 ， 用 + 和 - 1 分 别 表示 
“ 开 ” 和 “ 关 ”" 状 态 。 如 果 sigmoid 信和 度 网 络 利用 1 和 0 表示 神经 元 开 状 态 和 关 状 态 ， 则 令 w; 表 
示 相 应 的 突 触 权 值 ， 证 明 使 用 下 面 的 变换 由 可 以 转化 成 vi: 


wi = F 对 O<i<j 


Wio = Wo 十 $ p2 Wj 
最 后 一 行 指 的 是 神经 元 7 的 偏 置 值 。 
11.15 在 sigmoid 信 度 网 络 中 我 们 确认 概率 P(X, =x 1X, = x,) 8 Gibbs 分 布 ， 概 率 P(X, 
= 大) 为 相应 的 剖 分 函数 。 验 证 这 两 个 结论 的 正确 性 。 
Helmholtz 机 
11.16 Helmholtz 机 在 识别 模型 和 产生 模型 中 都 没有 反馈 。 如 果 两 个 模型 的 任何 一 个 中 
允许 使 用 反馈 ， 则 网 络 的 运行 会 怎样 ? 


确定 性 Boltzmann 机 


11.17 如 同 习 题 11.10 中 所 讨论 ，Boltamann 机 在 概率 空间 作 梯 度 下 降 (关于 权 值 空间 ) 。 
确定 性 Boltzmann 机 对 什么 函数 作 梯度 下 降 ? 你 可 参考 Hinton(1989) 讨 论 这 个 问题 。 

11.18 考虑 具有 非 对 称 权 值 w; zw 的 递归 网 络 。 如 果 每 次 权 值 更 新 后 它 的 长 度 向 零 豪 
减 一 个 很 小 的 比例 ， 讨 论 确定 性 Boltzmann 机 学 习 算 法 将 如 何 自动 使 网 络 成 为 对 称 的 (Hinton， 
1989)。 
确定 性 sigmoid 信和 度 网 络 

11.19 证 明 式 (11.77) 左 边 和 右边 表达 式 的 差 等 于 分 布 Q(X = xp IX, = x, ) A P(X, = x | 
X=X,) 之 间 的 Kullback-Leibler 散 度 。 

11.20 在 式 (11.89) 中 的 sigmoid 函数 的 变量 定义 确定 性 sigmoid 信和 度 网 络 中 神经 元 j 的 
诱导 局 部 域 w， 它 和 用 反 向 传播 算法 训练 的 多 层 感 知 器 中 神经 元 相应 的 诱导 局 部 域 有 什么 差 
异 ? 
确定 性 退火 

11.21 在 11.13 节 中 我 们 利用 信息 论 方法 讨论 确定 性 退火 的 思想 。 确 定性 退火 的 思想 
也 可 以 基于 第 10 章 讨 论 的 最 硕 原理 用 原理 化 的 方式 产生 。 说 明 第 二 种 方法 的 基本 原理 
(Rose, 1989), 

11.22 (a) 利 用 式 (11.97) 和 式 (11.98)， 推 导 式 (11.99) 所 给 出 的 Lagrange 函数 F* 的 结 


果 ， 该 结果 是 用 联想 概率 的 Gibbs 分 布 得 到 的 。 


[ol 


= 





(b) 利 用 本 题 中 (a) 的 结果 ， 导 出 式 (11.101) 给 出 的 严 " 关于 码 向 量 y 取 最 小 值 的 条 件 。 

(c) 应 用 式 (11.101) 的 最 小 化 条 件 到 式 (11.91) 的 平方 畸变 度量 ,评论 你 的 结果 。 

11.23 考虑 数据 集 为 混合 Gauss 分 布 ， 在 这 种 情况 下 ， 怎 样 才 能 使 得 利用 确定 性 退火 比 
利用 最 大 似 然 估计 有 优越 性 ? 

11.24 在 本 题 中 我 们 探讨 基于 神经 网 络 的 模型 分 类 中 确定 性 退火 的 应 用 (Miller et al., 





TAKE TÈLA FOG EBB E Fo © 01 69 18 1 437 





1996)。 输 出 层 的 神经 元 j 的 输出 记 为 已 (x) ， 其 中 x 为 输入 向 量 。 分 类 决策 是 基于 最 大 判别 
A F (x) 
(a) 对 于 概率 目标 函数 ， 考 虑 
= 方 D EPa ER) 


(«,@eEF j 
其 中 9 为 带 标号 向 量 的 训练 集 ，x ROMA, GHEHE, PORER ) 为 输入 向 量 
x MAGI KRR, 的 联想 概率 。 利 用 第 10 章 讨 论 的 最 大 炉 原 理 ， 写 出 P(xeR,) Hy Gibbs 分 
布 。 
(b) 令 < P, > 表示 错 分 类 代价 的 均值 。 写 出 在 联想 概率 PAER KAA WS 
束 下 最 小 化 < 已 > 的 Lagrange 函数 。 

















第 12 章 神经 动态 规划 


12.1 简介 


在 第 2 章 ， 我 们 认识 学 习 的 两 种 主要 范例 : 有 教师 学 习 和 无 教师 学 习 。 无 教师 学 习 的 范 
例 又 可 以 细 分 为 自 组 织 (无 监督 ) 学 习 利 增强 式 (reinforcement) 学 习 。 从 第 4 章 到 第 7 章 ， 讨 论 
有 教师 学 习 或 监督 学 习 的 不 同形 式 ， 从 第 8 章 到 第 11 章 讨 论 监督 学 习 的 不 同形 式 。 在 这 一 
章 里 ， 我 们 讨论 增强 式 学 习 。 

监督 学 习 是 在 “教师 ?教导 下 进行 的 * 认 知 ? 学 习 问 题 : 它 依赖 于 一 组 恰当 输入 - 输出 样本 
的 可 用 人 性， 这 些 样本 能 够 反映 运行 环境 。 与 此 相反 ， 增 强 式 学 习 是 一 种 “行为 ”学习 问题 : 通 
过 学 习 系 统 和 环境 的 交互 作用 完成 任务 ， 尽 管 存在 不 确定 性 ， 但 学 习 系 统 仍然 希望 在 环境 中 
达到 特定 目标 (Barto et al. ,1983; Sutton and Barto,1998) 。 无 教师 情况 下 进行 的 交互 使 得 增强 式 
学 习 特 别 适合 代价 很 高 或 很 难 (如 果 不 是 不 可 能 ) 找 到 一 组 满意 的 输入 - 输出 样本 的 动态 情 
况 。 

有 两 种 途径 研究 增强 式 学习 i ， 概 述 如 下 : 

1. 传统 方法 。 通 过 惩罚 和 奖励 的 过 程 进行 学 习 以 期 达到 高 度 熟 练 行为 的 目标 。 

2. 现代 方法 。 它 基于 称 为 动态 规划 的 一 种 数学 方法 ， 通 过 考虑 将 来 可 能 的 但 实际 并 未 
经 历 的 阶段 而 决定 一 系列 的 行动 ; 这 里 强调 的 是 规划 (planning) 。 

我 们 讨论 的 重点 是 现代 增强 式 学 习 。 

动态 规划 (dynamic programming)" 技 术 处 理 的 是 这 样 一 种 情况 : 分 阶段 做 决策 ， 在 作 下 
一 个 决策 之 前 在 某 种 程度 上 能 够 预测 每 个 决策 的 结果 。 这 种 情况 的 一 个 关键 方面 是 不 能 孤立 
地 做 出 决策 。 相 反 ， 现 在 对 低 代 价 的 希望 必须 被 将 来 高 代价 的 失望 所 抵消 ( 即 不 能 仅 追 求 当 
前 的 低 代 价 )。 这 是 一 个 信任 赋值 (credit assinment) 问题 ， 因 为 信任 或 责任 必须 赋值 给 一 组 相 
互 作 用 的 决策 中 的 每 一 个 决策 。 为 了 最 优 的 规划 ， 和 需要 在 眼前 代价 和 将 来 代价 中 取得 有 效 的 
折 中 。 这 种 折 中 确实 被 动态 规划 的 形式 抓 住 。 特 别 ， 动 态 规划 解决 一 个 问题 : 当 可 能 需要 牺 
牲 短期 性 能 的 情况 下 ， 系 统 怎样 学 习 提 高 长 期 性 能 ? 

遵循 Bertsekas and Tsitsiklis(1996) , 我 们 称 增强 式 学 习 的 现代 方法 为 神经 动态 规划 。 这 样 
做 主要 有 两 点 原因 : 

。 动态 规划 提供 它 的 理论 基础 。 

。 神经 网 络 提供 它 的 学 习 能 力 。 

神经 动态 规划 一 个 简洁 明确 的 定义 是 (Bertsekas and Tsitsiklis, 1996) : 

神经 动态 规划 使 一 个 系统 通过 观察 自身 的 行为 来 学 会 怎 祥 做 出 好 的 决策 ， 并 且 使 它 能 通 
过 使 用 增强 式 误 入 机 制 以 改进 自己 的 行动 。 


在 离线 方式 下 使 用 Monte Carlo 仿真 可 以 得 到 对 行为 的 观察 。 使 用 迭代 的 优化 系统 通过 增 
强 获得 对 行动 的 提高 。 
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动态 规划 有 两 个 主要 特征 : 一 个 固有 的 离散 时 间 动 态 系统 ， 和 一 个 时 间 上 车 加 的 代价 函 
数 。12.2 节 讨 论 这 两 个 特征 。 随 后 在 12.3 节 讨论 Bellman 最 优 性 方程 的 公式 ， 它 在 动态 规划 
中 扮演 很 重要 的 角色 。 在 12.4 PA 12.5 节 ， 讨 论 动态 规划 计算 最 佳 策略 的 两 种 不 同方 法 ， 
它们 是 策略 迭代 和 值 迭代 。 

在 12.6 节 ， 我 们 给 出 神经 动态 规划 涉及 的 问题 的 综述 。 这 个 综述 导 臻 对 允 近 策略 迭代 
和 Q- 学 习 的 讨论 ， 这 使 它们 适宜 利用 神经 网 络 实现 函数 逼近 。 这 两 个 算法 将 分 别 在 12.7 
节 和 12.8 PEE. 12.9 节 提 出 一 个 使 用 Q- 学 习 的 计算 机 实验 。 

本 章 在 12.10 节 给 出 最 后 的 评价 作为 结束 。 


12.2 Markov 决策 过 程 


考虑 一 个 学 习 系统 或 主体 (agent) 以 图 12-1 的 方式 和 环境 相互 作用 。 系 统 依照 一 个 有 限 
的 离散 时 间 Markov 决策 过 程 运行 ， 这 个 Markov 决策 过 程 有 以 下 特性 : 
环境 依 概 率 占 据 一 组 有 限 的 离散 状态 而 演化 。 但 状态 
是 注意 状态 并 不 包含 过 去 的 统计 特性 ， 尽 管 过 去 
的 统计 特性 对 学 习 系 统 是 有 用 的 。 
对 于 每 一 个 环境 状态 ， 学 习 系 统 可 以 采取 一 组 有 
限 的 可 能 行动 。 | Ta 
。 每 当 学 习 系统 采取 一 次 行动 ， 就 会 引起 一 定 的 代 
价 。 图 12-1 学 习 系统 与 环境 交互 的 框图 
。 观察 状态 、 采 取 行动 和 引发 代价 都 是 在 离散 的 时 间 里 发 生 的 。 
在 当前 讨论 的 背景 下 , 环境 的 状态 定义 为 学 习 系 统 从 它 和 环境 交互 中 获得 的 过 去 全 部 经 
历 的 总 和 ， 它 包含 诸如 学 习 系统 预测 环境 未 来 行为 所 必需 的 信息 。 设 表示 在 时 间 步 n 的 状 
态 的 随机 变量 为 ENR n 的 实际 状态 为 x(n)。 有 限 个 状态 的 集合 用 % 表 示 。 动 态 规 





划 令 人 惊奇 的 一 个 特点 是 它 的 适用 性 很 少 依赖 状态 的 性 质 。 因 此 我 们 可 以 不 对 状态 空间 结构 
作 任 何 假设 而 进行 。 


例如 ， 对 于 状态 i, 一 组 可 采取 的 行动 ( 即 学 习 系 统 作用 于 环境 的 输入 ) 设 为 4, = larl, 
这 里 的 学 习 系 统 采取 的 行动 aj 的 第 二 个 下 标 k 仅仅 说 明 当 环境 在 状态 i 时 ， 可 以 有 不 止 一 个 
可 能 的 行动 。 例 如 ， 采 取 行 动 a 将 环境 状态 从 i 变化 到 j 状态 本 质 上 为 概率 性 的 。 然 而 ， 最 
重要 的 是 ， 从 状态 i 到 状态 j 的 转移 概率 完全 依赖 于 当前 状态 i 和 相应 的 行动 aro IMER 
们 在 第 11 章 里 讨论 的 Markov 性 质 。 这 个 性 质 是 很 关键 的 ， 因 为 它 意味 着 环境 的 当前 状态 为 
学 习 系 统 提供 必需 的 信息 以 决定 采取 什么 行动 。 

用 一 个 随机 变量 A, 表示 学 习 系统 在 在 时 间 步 ”时 采取 的 行动 。 用 p; (a) 表 示 在 时 间 步 
n 时 由 于 采取 行动 a 而 使 从 ;i 状态 转移 到 j 状态 的 转移 概率 ， 其 中 A, = as H Markov 性 质 我 
们 有 

py(a) = P(X =j1X, = i,4, = a) (12.1) 

由 概率 论 ， 转 移 概 率 mw (c) 必 须 满足 以 下 两 个 条 件 ; 
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p;(a) = 0 对 于 所 有 i 和 j (12.2) 
Bps(a) = 1 ”对 于 所 有 i (12.3) 


对 于 给 定数 目的 状态 和 转移 概率 ， 学 习 系统 随时 间 采 取 行 动产 生 的 环境 状态 序列 形成 一 个 
Markov 链 。 我 们 在 第 11 章 讨论 过 Markov 链 。 

当 从 一 个 状态 转移 到 男 一 个 状态 时 , 学 习 系 统 招 致 一 个 代价 。 因 此 在 行动 a, VERDE 
生 的 从 状态 i 到 状态 /的 第 步 转 黎 ， 学 习 系 统 招致 的 代价 表示 为 Yeli, aa,j)， 这 里 的 
g(",",") 是 一 个 规定 的 函数 ，y 是 折扣 因子 (discount factor) ，0 三 y< 1。 通 过 调节 y, PAF 
制 学 习 系 统 对 它 自己 行动 的 短期 和 长 期 结果 考虑 的 程度 。 在 极端 情况 ， 当 y=0 系统 是 短视 
的 ， 它 只 考虑 它 的 行动 的 当前 结果 。 以 后 将 忽略 这 种 极端 值 ， 也 就 是 限于 讨论 0<7y< 1。 当 
7 接近 1 时 ， 未 来 的 代价 在 采取 最 优 行动 时 变 得 更 为 重要 。 

我 们 的 兴趣 在 于 形成 一 种 策略 (policy)， 这 里 策略 指 的 是 状态 到 行动 的 映射 。 也 就 是 说 ， 
给 出 环境 当前 状态 的 知识 ， 一 个 策略 是 学 习 系 统 决 定做 什么 所 使 用 的 一 个 规则 。 策 略 表示 为 

n= pop ,po (12.4) 
HEP p, 指 的 是 在 时 间 步 上 =0，1，2，…， 状 态 X, = i 到 行动 4, = a 的 映射 。 这 个 映射 满足 
ju 人 (i) € A, 对 所 有 状态 i EX 

REA, 表示 在 状态 i 时 学 习 系 统 能 够 采取 的 行动 集合 。 这 样 的 策略 是 允许 的 。 

策略 可 以 是 不 稳定 的 或 稳定 的 。 不 稳定 的 (nonstationary) 策 略 是 随时 间 变 化 的 ， 正 如 公式 
(12.4) 所 示 。 但 当 策 略 不 随时 间 变 化 时 ， 即 

x = {peppy} 

就 说 策略 是 稳定 的 (stationary)。 换 句 话 说 ， 稳 定 的 策略 每 次 遇 到 一 个 特定 的 状态 时 采取 相同 
的 行动 。 对 于 稳定 的 策略 ， 固 有 的 Markov 链 既 可 以 是 不 平稳 的 也 可 以 是 平稳 的 。 在 不 平稳 
的 Markov 链 上 也 可 使 用 稳定 的 策略 ， 但 这 是 不 太 明智 的 。 如 果 使 用 稳定 的 策略 nu， 那么 状态 
序列 | 无 ,n=0,1,2,…| 形 成 一 Markov 链 ， 其 转移 概率 为 pilul), KORRA H 
于 这 个 原因 这 个 过 程 称 为 Markov 决策 过 程 。 


基本 问题 


动态 规划 问题 分 为 有限 范围 和 无 限 范围 两 种 。 有 限 范围 (finite-horizon) 问 题 中 在 有 限 的 阶 
段 内 对 代价 累积 。 无 限 范围 (infinite-horizon) 问 题 中 在 无 限 的 阶段 内 对 代价 累积 。 无 限 范围 问 
题 为 有 限 范围 但 数目 非常 大 的 问题 提供 一 个 合理 的 逼近 。 因 为 折扣 保证 对 于 任何 策略 所 有 状 
态 的 代价 都 是 有 限 的 ， 这 样 无 限 范围 问题 有 着 特殊 的 应 用 。 

在 无 限 范围 问题 中 ， 从 初始 状态 X = i 开始 并 使 用 策略 r= {1, 1， 总 的 期 望 代价 定义 为 


JT (i) = 可 STEX (X), Xow) |X) = 让 (12.5) 
n=0 
其 中 期 望 值 是 对 Markov 链 |X, ,X,,…1 取 值 。 函 数 三 (让 叫做 策略 x 从 状态 i 开始 的 cost-to-go 
函数 。 它 的 最 优 值 记 为 J (i), EN 
J*(i) = minJ"(i) (12.6) 
当 策 略 r 稳 定时， 即 x= ju，A，A，… 小 ， 我 们 用 符号 FORE "(i)， 并 当下 列 条 件 成 立 
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时 说 是 最 佳 的 : 
JG) = J’ (i) 对 于 所 有 的 初始 状态 i (12.7) 
我 们 可 以 对 动态 规划 的 基本 问题 做 如 下 总 结 : 
给 定 描 述 学 习 系 统 和 环境 相互 作用 的 稳定 Markov 决策 过 程 ， 找 到 一 个 稳定 的 策略 n= 
bees pps ARPT A AER AS i 有 最 小 的 cost-to-go BIH J“ (i)o 
注意 ， 在 学 习 过 程 中 学 习 系 统 的 行为 可 以 随时 间 改 变 。 但 是 学 习 系 统 寻 找 的 最 优 策略 是 
稳定 的 (Watkins, 1989) 。 


12.3 Bellman 最 优 准则 


动态 规划 技术 依赖 归功 于 Bellman(1957) 的 通称 为 最 优 原 则 (principle of optimality) 的 非常 
简单 的 思想 。 这 个 原则 可 简单 陈述 为 (Bellman and Dreyfus , 1962) : 

一 个 最 优 策略 有 这 样 的 性 质 ， 无 论 初 始 状态 和 初始 决策 是 什么 ， 对 于 第 一 个 决策 所 导致 
的 状态 ， 剩 余 决 策 必 须 成 为 最 优 策略 。 

正如 这 里 使 用 的 那样 ， 一 个 “决策 ”( decision) 是 在 特定 时 间 的 一 种 控制 选择 ，、 一 个 “ 策 
略 ”(poliey) 是 整个 控制 序列 或 控制 另 数 。 

为 用 数学 公式 表示 最 优 原 则 ， 考 虑 一 “有限 范围 问题 ， 它 的 cost-to-go 函数 定义 为 


Jo(Xo) = 可可 GD + D3 ee Me st (Xe) Xa) (12.8) 


其 中 是 范围 ( 即 阶段 数目 ) ，gx (Xr) 是 最 终 代价 。 给 定 和 ， 式 (12.8) 中 的 期 望 值 是 对 剩余 
状态 钱 ，…，X_! 求 出 的 。 现 在 我 们 可 以 正式 陈述 最 优 原 则 如 下 (Bertsekas,1995b): 

An = [pe ,MI ，… ,Mx_1| 作 为 基本 有 限 范围 问题 的 最 优 策略 。 假设 使 用 最 优 策略 x” 
时 ， 给 定 的 状态 NX 发 生 的 概率 为 正 。 考 虑 当 环 境 在 时 刻 n 时 状态 为 无 的 子 问题 ， 假 设 我 
们 希望 最 小 化 对 应 的 cost-to-go 函数 


K-1 
J,(X,) = E| ex ( Xx) + Dai (Xa spe (Me) Xr) (12.9) 
kan 
其 中 n=0, 1, ore 天 一 1。 这 时 截断 策略 和 Meare ,MK-1| 对 于 子 问题 是 最 优 的 。 


通过 下 面 的 讨论 ， 我 们 可 以 直观 地 说 明 最 优 原 则 的 合理 性 : 如 果 截 断 策略 |; ,pi ,1 ，…， 
ux-i| 不 是 如 陈述 的 那样 为 最 优 ， 那 么 一 旦 在 n 时 刻 到 达 XX, 状态 ， 通 过 简单 转换 到 对 于 子 问 
题 最 优 的 策略 ， 我 们 可 以 减少 cost-to-go 函数 J, (X,) o 

最 优 原则 基于 “分 而 治之 ”(divide and conquer) 的 工程 概念 。 基 本 上 ， 一 个 复杂 的 多 阶段 
规划 或 控制 问题 的 最 优 策略 ， 可 通过 以 下 处 理 构 造 : 

。 构造 一 个 仅 包 含 系统 最 后 一 个 阶段 的 “尾部 子 问题 ”(tail subproblem) 的 最 优 策略 。 

。 扩展 最 优 策略 至 包含 系统 最 后 两 个 阶段 的 “尾部 子 问题 ”。 

。 以 这 种 方式 继续 这 种 过 程 ， 直 到 处 理 完整 个 问题 。 


动态 规划 算法 
在 前 面 描述 过 程 的 基础 上 ， 我 们 可 以 提出 动态 规划 算法 ， 它 从 时 期 N - 1 到 时 期 0 反 向 





FP LE BG ERA] 443 





处 理 。 S m= {pw ,入 ，… ,Lk-11 表 示人 允许 策略 。 对 每 一 个 n=0, 1, ey K-1, ex" = bias 
Harite- O Jt CX, Pez MENTE] n RS X, 开始 到 时 间 天 的 (天 - m) 阶 段 问 题 的 最 优 
代价 ; 即 


J7(X%,) = min E | ecx + de (Xop (Xr), Xna) (12.10) 
x ken 


par Ak) 
它 表示 式 (12.9) 的 最 优 形式 。 考 虑 到 r = (or ) 和 部 分 展开 式 (12.10) 的 右边 和 ， 我 们 可 
以 写成 
Ji (Xa) = min E ， [geet (Ms) Kos) 


Cp ,ntl ) Ke , 


K-1 
+ &x (Xx) + 5 gi (Xosa (Xi), Xan) 
k=n+1 
= min E [an Xas (X), Koa) 
a n+l 


K-1 
tmin By | ge(Xe) + D aAA) Xie] | 
x ” Kk-1l k= n+l 


(Kya 
= min E | g, CX tiny)» Xa) + Fa (Ks) (12.11) 
在 最 后 一 行 ， 使 用 了 式 (12.10) 的 定义 ， 以 n+ 1 代替 n。 现 在 我 们 假设 对 某 一 n 和 所 有 的 
Xiu 
Jia Xia) = Jaa (Xnr) (12.12) 
那么 式 (12.11) 可 写成 
In (X) = min E lga (Xn stn Xa) Xna) + Ines Kee) | (12.13) 
如 果 式 (12.12) 对 所 有 蕊 ,成 立 ， 那 么 下 式 对 所 有 X, 也 显然 成 立 : 
Ji (Xa) = hX) 
因此 ， 可 从 (12.13) 导 出 
J, (X,) = min E [ g, (Xn pen (Xn) Xs) + Jaa (Xaa) ] 
我 们 可 以 正式 陈述 动态 规划 算法 如 下 (Bertsekas,1995b): 
对 每 一 个 初始 状态 X。， 基 本 有 限 范围 问题 的 最 优 代价 J (XX ) 等 于 I (Xo), HP 
函数 Jo 从 下 面 算法 的 最 后 一 步 得 到 : 
J (Xn) 三 min E [ g, (Xn ttn (Xn) Xn) + Jasi (Xana) ] (12.14) 
按时 间 反 向 运行 ， 且 
天 (CE) = gx (Xx) 
Bd, Bul 使 得 式 (12.14) 的 右边 对 于 任意 于 和 无 AR, PMA RBH = ly suis, 
UK-1 | 是 最 优 的 。 


Bellman 最 优 性 方程 
以 其 基本 形式 ， 动 态 规划 算法 处 理 有 限 范围 问题 。 我 们 感 兴趣 的 是 推广 这 个 算法 的 用 
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途 ， 即 处 理 在 稳定 策略 n= iy,p,p,…| 情 况 下 ， 式 (12.5) 的 cost-to-go 函数 所 描述 的 无 限 范围 
折扣 问题 。 为 了 达到 这 一 点 ， 我 们 做 下 面 两 件 事 ， 

。 反 转 算法 的 时 间 索 引 ， 使 得 它 和 折扣 问题 对 应 。 

。 定义 代价 2, (Xu (X,),X,., MF: 


En (X, UX), Xari) = Ye (X, u Xan) Xna) (12.15) 
现在 可 以 重新 定义 动态 规划 算法 如 下 (参看 习题 12.4): 
Jai (Xo) = min Elg (Xo p(Xo), X1) + YJ,(X,)] (12.16) 


它 从 初始 条 件 
Jo(X) = 0 对 所 有 X 


开始 状态 Xo 是 初始 状态 ，X 是 策略 u 的 行动 导致 的 新 状态 ，?y 是 折扣 因子 。 
令 J (让 表示 对 初始 状态 Xo = i 的 最 优 无 限 范围 的 代价 。 我 们 可 以 把 J (i) 看 作 相 应 的 
人 阶段 最 优 代价 天 (让 当天 趋 于 无 穷 大 时 的 极限 ; BD 
J G) = limJx(i) ”对 所 有 i (12.17) 
这 个 关系 联系 着 有 限 范围 和 无 限 范围 之 间 的 折扣 问题 。 在 式 (12.16) 中 , Bnt+1l=K, X= 
i， 并 应 用 式 (12.17) ， 我 们 得 到 
J’ (i) = min EL g(i,u(i), X) + YJ" (X,)] (12.18) 
为 了 计算 最 优 无 限 范围 代价 J* (i) 的 值 ， 按 下 面 两 个 阶段 进行 处 理 : 
1. 计算 代价 glili), XOX X 的 期 望 值 ， 


其 中 N 是 环境 状态 的 数目 ，p; 是 初始 状态 =i 到 新 状态 X = 的 转移 概率 。 式 (12.19) 定 
义 的 量 是 在 状态 X, = i 使 用 策略 p 建议 的 行动 引起 的 立即 期 望 代价 。 利 用 c(i,n(i)) 表 示 这 
个 代价 ， 可 以 写 为 
N 
c(i,p(i)) = Do peli uli), j) (12.20) 
2. 计算 J (XOX X, 的 期 望 值 。 这 里 注意 ， 如 果 知 道 有 限 状 态 系统 的 每 一 个 状态 X, 的 
代价 J* (大 )， 我 们 可 以 根据 固有 的 Markov 链 的 转移 概率 决定 J (X ) 的 期 望 值 如 下 ; 
E[J*(X,)] = Dow (j) (12.21) 
这 样 ， 将 式 (12.19) 至 (12.21) 代 人 式 (12.16)， 我 们 得 到 期 望 的 结果 


J*(i) = min( c(i,p(i)) + pals) i = 1,2,0, N (12.22) 


式 (12.22) 叫 做 Bellman 最 优 性 方程 。 它 不 应 该 被 看 作 算法 。 相反 ， 它 表示 个 方程 组 ， 
个 方程 对 应 一 个 状态 。 这 个 方程 组 的 解 定义 环境 个 状态 的 最 优 cost-to-go 函数 。 

有 两 种 计算 最 优 策略 基本 方法 。 它 们 称 为 策略 和 迭代 和 值 选 代 。 这 两 种 方法 分 别 在 12.4 
节 和 12.5 节 讨论 。 
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12.4 策略 迭代 
我 们 开始 描述 策略 迭代 算法 ， 首 先 介绍 Watkins(1989) 提 出 的 Q - 因子 的 概念 。 考 虑 一 
个 现 有 的 策略 p, ERARA i 的 cost-to-go 函数 (i) 为 已 知 。 对 每 一 个 状态 i ELM 
动 a€ A,，Q -因子 定义 为 立即 代价 加 上 遵循 策略 p 的 所 有 后 继 状态 的 折扣 代价 之 和 ， 表 
示 为 
Q"(i,a) = elia) +¥ Dps(a) 0)) (12.23) 


其 中 行动 a =pli) $E Q- 因子 Q*(i,a) 比 cost-to-go 函数 (i) 包 含 的 信息 更 多 。 例 如 ， 

行动 可 以 只 依靠 Q - 因子 来 排序 ， 而 依靠 cost-to-go 函数 排序 时 还 需 状态 转移 概率 和 代价 的 知 

识 。 @, ; 
通过 设想 由 初始 状态 1， 2, …, NAPA ee i 

状态 - 行动 对 (;，a) 组 成 其 状态 的 新 系统 , 如 (i) Cr) 

图 12-2 所 描绘 ， 我们 可 以 深入 了 解 Q - 因子 的 | 

含义 。 有 两 种 可 能 发 生 的 不 同 概率 ; 


。 系统 在 状态 (i, a)， 在 这 种 状况 下 ， 不 PE y 
采取 行动 。 以 概率 p; (a) 自 动 转变 为 状 a 
aS j; 同时 招致 代价 g(i, a,j)。 图 12-2 两 个 可 能 的 转移 ， 从 状态 (i, a) 到 
。 系统 在 状态 i;， 在 这 种 状况 下 ,采取 行动 RA j 的 转移 为 概率 性 的 ， 但 从 状态 i 到 状 
aE, 后 。 下 一 个 确定 性 状态 是 (i,a)。 EC, 0) 的 转移 为 确定 性 的 


我 们 说 策略 u 对 cost-to-go 函数 "(i 让) 是 贪心 的 ， 如 果 对 所 有 的 状态 ，p( 站 是 满足 下 列 条 
件 的 行动 : 
Q"(i,p(i)) = min Q"(i, a) 对 所 有 i (12.24) 
对 式 (12.24) 的 下 列 两 点 观察 得 注意 : 
。 可 能 有 多 于 一 个 行动 最 小 化 某 一 状态 的 Q - 因子 集合 ， 在 这 种 情况 下 ， 对 于 有 关 的 
cost-to-go 滔 数 吕 以 有 多 于 一 个 的 贪心 策略 。 
。 不 同 的 cost-to-go 函数 可 能 有 一 个 相同 的 贪心 策略 。 
另外 ,下 面 的 事实 对 所 有 动态 规划 方法 都 是 基本 的 : 
O" (isp (i)) = min Q" Ci, a) (12.25) 
这 里 p' 是 最 优 策略 ，J' 是 相应 的 最 优 cost-to-go 函数 。 
用 我 们 处 理 Q - 因子 和 贪心 策略 的 概念 ， 可 以 描述 策略 迭代 (policy iteration) 算 法。 特别 
地 ， 算 法 交替 在 下 面 两 个 步骤 中 运行 (Bertsekas,1995b) : 
1. 策略 求 值 步骤 ， 在 这 个 步骤 里 ， 对 所 有 状态 和 行 
动 求 当 前 策略 的 cost-to-go 函数 值 和 相应 的 Q - 因子 的 值 。 
2. 策略 改进 步骤 ， 更 新 当前 策略 使 其 成 为 第 一 步 计 
算出 的 cost-to-go 函数 的 贪心 策略 。 
这 两 个 步骤 见 图 12-3。 具 体 地 ， 我 们 从 某 一 初始 策略 
iw 开始 ， 然 后 产生 一 系列 新 策略 u, m, o WHARE 





图 12-3 策略 选 代 算法 框图 
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为 x, ， 我 们 执行 策略 求 值 步骤 时 ， 计 算 cost-to-go 函数 J’ (i)， 作 为 下 列 线性 方程 组 的 解 ( 参 
看 式 (12.22)): 
JC) pO 47 Moyle ID is LQ (12.26) 
其 中 JM (1), J (2)，…，J™% (NN) 是 未 知 数 。 使 用 这 些 结果 ， 我 们 对 状态 -行动 对 (i，a) 
计算 Q - 因子 (参看 式 (12.23)) 
Q" (i, a) = elia) +¥ D pCa) JH CG) aE A, i= 1,2,°°,N (12.27) 
接着 ， 通 过 计算 如 下 定义 的 新 策略 yy, ,| 来 完成 策略 改进 : 
Port) = arg min QO’ (i,a) i = 1,2,°-,N (12.28) 
利用 策略 p RE 和 六， 重复 刚才 描述 的 两 个 步骤 直到 有 
Jini) = J™ (i) 对 所 有 i 
此 时 终止 算法 于 策略 po BF Jen 请 (参看 习题 12.5) ， 可 以 说 经 过 有 限 次 迭代 后 策略 近 


代 算法 会 结束 ， 因 为 固有 的 Markov 决策 过 程 仅 有 有 限 数目 的 状态 。 表 12-1 概括 基于 式 
(12.26) 和 (12.28) 的 策略 迭代 算法 。 


表 12-1 策略 泛 代 算法 小 结 





1. 从 任意 的 初始 策略 po 开始 。 
2. 对 所 有 的 状态 TERK AGTH CA, 计算 Jin (i 和 Q's (i, a), n=0, 1, 2,…。 
3. 对 每 一 个 状态 i, TE 

Haar (i) = arg min Q's (isa) 


4. 重复 第 2，3 步 ， 直 到 jy, ,1 与 pa 无 差别 ， 那 时 的 pn 就 是 所 求 的 策略 。 


12.5 值 迭 代 


在 策略 迭代 算法 中 ， 算 法 每 次 迭代 过 程 必须 重新 计算 整个 cost-to-go 函数 ， 这 样 代价 是 
很 高 的 。 即 使 新 策略 和 旧 策 略 的 cost-to-go 函数 很 相似 ， 很 遗憾 这 个 计算 也 没有 显著 的 改进 。 
然而 ， 有 另外 一 种 用 于 寻找 最 优 策略 的 方法 能 够 在 计算 cost-to-go 函数 时 避免 烦琐 的 重复 计 
算 。 这 个 以 逐次 逼近 为 基础 的 蔡 代 方法 就 是 值 选 代 算法 。 

值 选 代 (value iteration) 算 法 涉及 对 一 序列 有 限 范围 问题 中 的 每 一 个 求解 Bellman 最 优 性 
方程 (12.22)。 当 算法 的 迭代 数目 趋 于 无 穷 时 ， 在 极限 处 有 限 范围 问题 的 cost-to-go 函数 对 
所 有 的 状态 一 致 收敛 于 相应 的 无 限 范围 问题 的 cost-to-go ek RX ( Ross, 1983; Bertsekas ， 
1995b ) 。 

令 JORRA FE FRAG n 时 对 状态 i 的 cost-to-go 函数 。 算 法 从 任意 的 猜测 
Jo( 让 开始 ，i = 1，2，…，N。 CD) 的 惟一 约束 是 它 应 该 有 界 ; 对 于 有 限 范围 问题 ， 这 是 
自动 成 立 的 。 如 果 最 优 cost-to-go 函数 矿 ( 间 的 某 一 估计 可 用 ， 那 么 它 应 该 被 用 作 初 始 值 
Jo(i)o 一旦 选择 了 Jo(i)， 就 可 以 计算 cost-to-go 函数 序列 JD, G), «+, EAER 
算法 
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Jaa i) = min{ c(i, a) + Dp a)J, (DP, i=1,2,°°,N (12.29) 


对 于 状态 i 应 用 式 (12.29) 描 述 的 cost-to-go MER, DORA i 的 代价 的 支持 (backing up of 
i’s cost)。 这 个 支持 是 Bellman 最 优 性 方程 (12.22) 的 直接 实现 。 注 意 对 状态 i = 1，2，…， 
N， 式 (12.29) 中 cost-to-go 函数 的 值 在 算法 的 每 一 次 迭代 时 同时 更 新 。 这 个 实现 方法 表示 值 
迭代 算法 传统 的 同步 形式 。 这 样 ， 从 任意 的 初始 值 jn(H， 太 (2)，…，j(N) 开 始 ， 当 选 
代数 目 n 趋 近 无 穷 时 ， 式 (12.29) 描 述 的 算法 将 收敛 于 相应 的 最 优 值 J* (1)，J* (2)， 

J” CN) (Ross, 1983; Bertsekas, 1995b )。 

与 策略 迭代 算法 不 同 的 是 ， 在 值 迭 代 算 法 中 不 是 直接 计算 最 优 策略 ， 而 是 首先 用 式 
(12.29) 计 算 最 优 值 J (1)，J* (2)，…，J*(N)， 然 后 获得 关于 该 最 优 集 合 的 贪心 策略 作 
为 最 优 策 略 。 就 是 说 ， 

u (i) = arg min Q” (i,a), i= 1,2, ,N (12.30) 


这 里 O° (i, a)=cli, a) +y Špa) G), i=l, 2, =, N (12.31) 
表 12-2 给 出 基于 式 (12.29) 至 (12. 31) 的 值 选 代 算法 的 小 结 ， 其 中 包括 式 (12.29) 的 停止 
准则 。 
表 12-2 人 和 值 迭代 算法 小 结 
1. 从 状态 i= 1，2，…, NAR DOS. 
2. 对 n=0，1，2,，…，, 计算 
Es, 


N 
Jn (i) = min {c(i,a) RODADA bs 
aE; jel i= 1,2, N 


重复 这 种 操作 直到 
IIn (i) - Ili l<e 对 每 一 个 状态 i 
这 里 的 e 是 指定 的 容许 参数 。 假 定 e 足 够 小 ,使 J, (让 充分 接近 最 优 cost-to-go 函数 J" (i)。 因 此 我 们 可 以 置 
(i= J* (i) 对 所 有 状态 i 
3. 计算 Q- 因子 
Q* (i,a) = c(i,a) ry Malas) 对 a€E MA, Ai =1,2,--,N 
£ 


由 此 ， 确 定 贪心 策略 作为 J” (让 的 最 优 策略 : 
uw’ (i) = arg min Q* (i,a) 


$12.1 驿 车 问题 为 了 说 明 Q - 因子 在 动态 规划 中 的 作用 ， 我 们 考虑 驿 车 (stagecoach 
problem) 问 题 。 在 19 世纪 中 叶 密 苏 里 的 一 个 幸运 追求 者 决定 去 西部 加 入 在 加 里 福 尼 亚 的 淘金 
潮 (Hiller and Lieberman, 1995 )。 行 程 需要 乘 芭 车 穿 过 不 安全 的 乡村 ， 沿 途 会 有 强盗 攻击 的 危 
险 。 行 程 的 起 始点 (密苏里 州 ) 和 终点 (加 里 福 尼 亚 州 ) 是 固定 的 。 但 是 有 很 多 可 以 选择 的 路 
径 ， 有 可 能 经 过 其 他 8 个 州 ， 如 图 12-4 所 示 。 在 图 中 ， 我 们 有 以 下 规定 : 

。 一 共 10 个 州 ， 每 个 州 用 一 个 字母 表示 。 

。 行进 的 方向 是 从 左 到 右 。 

。 从 开始 的 州 4( 密 苏 里 州 ) 到 终点 的 州 J( 加 里 福 尼 亚 州 ) 有 4 个 阶段 。 

。 幸运 追求 者 从 一 个 州 到 下 一 个 州 行动 是 向 上 (Up)、 向 下 (Down) 或 直接 向 前 (Straight) 。 
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。 MA BJ 一 共有 18 条 可 能 路 径 。 
图 12-4 还 包括 对 每 一 条 路 径 的 人 身 保险 策略 的 代价 ， 选 择 每 一 条 路 线 是 基于 对 该 路 线 
的 安全 代价 的 仔细 评估 。 问 题 是 从 A 到 J 找到 一 条 人 身 保险 最 便宜 的 路 线 。 





图 12-4 驿 车 问题 的 流向 图 


为 了 找到 最 优 路 线 ， 我 们 从 终点 了 开始 向 后 推演 ， 考 虑 一 系列 有 限 范围 问题 。 这 符合 
12.3 节 的 Bellman 最 优 性 原则 。 
计算 终点 前 的 最 后 一 阶段 的 Q - 因子 ， 从 图 12-5a 可 以 得 出 终点 Q - 值 如 下 : 
Q( A, down) = 3 
Q(T, up) = 4 
这 些 数值 从 图 12-5a 可 以 分 别 得 出 。 
然后 向 后 再 移动 一 阶段 ， 使 用 图 12- 5a 得 出 的 Q -~ 值 ， 计 算 下 面 的 Q - fA: 


Q(E, straight) = 1+3=4 
Q( E down) = 4+4=8 
Q( F,up) = 6+3=9 
Q( F , down) = 3+4=7 
Q(G,up) = 34+3=6 . 
Q(G, straight) = 3+4=7 


由 于 需要 找到 最 小 保险 策略 的 路 径 ，Q - 值 表明 只 有 EH, F> F G>H REAR 
留 ， 而 其 他 路 径 应 删除 ， 如 图 12-5b。 
再 向 后 移动 一 阶段 ， 对 状态 B，C，D 重复 这 种 Q - 因子 计算 ,保留 那些 有 最 低 安 全 评 
615} 价 的 路 径 ， 就 得 到 图 12-5c。 
最 后 ， 向 后 移动 到 第 一 阶段 ， 重 复 上 面 的 计算 ， 就 得 到 图 12-54。 从 图 中 我 们 看 到 共有 
3 条 最 优 路 径 如 下 : 
A>C>E>H>J 
A-> D-> E> H> J 
A~>D-> F-> I> J 
它们 产生 的 总 体 代 价 都 是 11。 
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图 12-5 计算 驿 车 问题 Q - 因子 涉及 的 步骤 


12.6 神经 动态 规划 


动态 规划 的 主要 目标 是 寻找 一 种 最 优 策略 ， 即 学 习 系统 对 环境 每 个 可 能 状态 应 该 采取 行 
动 的 最 优选 择 。 在 这 种 环境 中 ， 当 考虑 利用 策略 迭代 或 值 选 代 算 法 求解 一 个 动态 规划 问题 
时 ， 必 须 记 住 两 个 实际 问题 : 

。 维 数 灾 。 对 现实 世界 的 许多 困难 问题 ， 可 能 的 状态 和 人 允许 的 行动 数目 如 此 之 大 ， 以 
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致 动态 规划 所 需 计算 量 是 不 堪 忍 受 的 。 对 于 涉及 总 共 N 个 可 能 状态 和 对 每 个 状态 有 
M 个 允许 行动 的 动态 规划 问题 ， 例 如 ， 一 个 稳定 策略 的 值 迁 代 算 法 的 每 步 迁 代 需 要 
NM 次 。 当 六 很 大 时 ， 这 常常 使 得 即使 是 完成 算法 的 一 次 选 代 也 不 可 能 。 例 如 ， 
HEF (backgammon) A 10 "个 状态 ， 这 意味 着 算法 的 一 次 迭代 利用 1000 MIPS 处 理 
器 也 需 1000 年 (Barto,et al,1995)。 

不 完全 信息 。 策 略 和 迭代 或 值 和 迭代 算法 要 求 有 Markov 决策 过 程 的 固有 先 验 知识 。 即 为 
了 最 优 策 略 的 计算 可 行 ， 我 们 需要 知道 状态 转移 概率 p 和 观察 代价 g(i,a,j)。 遗 憾 
的 是 ， 这 些 先 验 知识 并 非 总 是 可 得 的 。 

由 于 这 两 个 困难 中 的 任何 一 个 或 全 部 ， 我 们 常常 放弃 最 优 策略 而 使 用 次 优 策略 。 

这 里 我 们 感 兴趣 的 是 在 次 优 过 程 中 为 逼近 最 优 cost-to-go 函数 J‘ (i), EXA ANT 
涉及 神经 网 络 的 使 用 或 (和 ) 模 拟 。 特 别 地 ， 对 一 特定 状态 ， 六 (站 由 它 的 合适 通 近 J (i,w) 
所 代替 ， 其 中 w 是 参数 向 量 。 函 数 jO, w EKAIA A (scoring funetion) 或 近似 cost-to-go 函 
数 ， 函 数 的 值 JCG, w) 称 为 状态 i 的 分 数 (scores) 或 近似 cost-to-go 代价 。 因 此 在 图 12-6 中 ， 
分 数 7(i,w) 为 输入 状态 i 时 神经 网 络 的 输出 。 这 里 利用 的 是 所 谓 通 用 通 近 ， 正 如 在 前 面 几 
章 中 所 讨论 的 那样 ， 它 是 多 层 感 知 器 和 径 向 基 函 数 网 络 的 固有 特征 。 

我 们 有 特别 兴趣 的 动态 规划 问题 是 那些 具有 大 量 状态 而 要 求 寻 找 有 较 小 维 数 的 参数 向 量 
Ww 的 评分 函数 j(:,w)。 这 种 形式 逼近 称 为 紧凑 表示 ， 仅 需 存 储 参 数 向 量 w 和 评分 函数 
7(* ,Ww) 的 一 般 结构 。 对 所 有 状态 iE 多 只 有 需要 时 才 产 生 分 数 7(i,w)。 对 于 给 定 的 神经 网 
络 结构 (例如 多 层 感知 器 )， 问 题 是 寻找 参数 向 量 w， 使 得 对 所 有 iE 分数 (i,w) 提 供 最 优 
值 J* (i) 的 一 个 满意 的 逼近 。 

由 第 4 章 至 第 7 章 给 出 的 关于 有 教师 学 习 的 材料 ， 我 们 知道 ， 不 管 一 个 神经 网 络 的 类 型 
如 何 ， 都 要 求 有 一 个 表示 该 任务 的 标定 数据 集 。 但 是 ， 在 动态 规划 问题 的 背景 下 ， 没 有 这 样 
的 训练 数据 ( 即 输入 -输出 样本 i (i,)" (让 )| 可 用 来 训练 图 12-6 中 的 神经 网 络 ， 使 得 在 某 种 
统计 意义 下 优化 它 的 设计 。 这 样 惟一 的 可 能 性 是 利用 Monte Carlo 模拟 ， 这 里 利用 一 个 替代 模 
型 替代 基本 Markov 决策 过 程 的 实际 系统 。 这 样 导 致 一 种 新 的 离线 动态 规划 运行 方式 ， 它 有 
如 下 潜在 的 好 处 (Bertsekas and Tsitsiklis, 1996 ) : 

1. 利用 模拟 近似 地 求 最 优 cost-to-go PAI 
数 的 值 是 区 别 神经 动态 规划 方法 和 传统 动 
态 规划 逼近 方法 的 关键 思想 。 

2. 模拟 允许 利用 神经 动态 规划 方法 设 
计 没 有 明显 模型 可 用 的 系统 。 对 于 这 种 系 误差 信号 
统 ， 传 统 的 动态 规划 技术 是 不 可 能 用 的 ， i 。 
因为 提供 状态 转移 概率 的 估计 如 果 不 是 不 SS TOERE cotiog KA /的 神经 网 络 
可 能 那 也 是 很 烦 政 的 。 

3. 通过 模拟 ， 可 以 隐 式 地 确认 系统 中 最 重要 或 有 代表 性 的 状态 ， 即 那些 在 模拟 中 被 经 
常 访问 到 的 状态 。 结 果 ， 由 神经 网 络 发 现 的 评分 函数 可 以 对 这 些 特殊 状态 的 最 优 cost-to-go 
苹 数 提供 一 个 好 的 通 近 。 对 一 个 困难 的 动态 规划 问题 最 终结 果 可 能 是 一 个 好 的 次 优 策 略 。 

但 是 ， 重 要 的 是 要 认识 到 一 旦 引入 逼近 ， 就 不 能 期 望 评 分 函数 7 了. ,w) 收 敛 到 最 优 的 
cost-to-go 函数 J"(*)。 原 因 很 简单 ，J*(' ) 可 能 不 在 选 定 的 神经 网 络 结构 所 能 精确 表达 的 函 
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数 集 内 。 

在 下 面 两 节 里 我 们 讨论 两 个 cost-to-go 函数 逼近 的 动态 规划 逼近 过 程 。 在 12.7 节 描 述 的 
第 一 个 过 程 处 理 台 近 策略 迁 代 ， 这 里 假设 系统 具有 可 用 的 Markov 模型 。 在 12.8 节 描 述 的 第 
二 过 程 处 理 一 个 称 为 Q - 学 习 的 过 程 ， 它 仅 作 一 些 弱 的 假设 。 


12.7 逼近 策略 迭代 


假设 我 们 有 一 动态 规划 问题 ， 它 的 可 能 状态 数目 和 人 允许 的 行动 数目 非常 大 ， 使 得 利用 传 
统 处 理 方 法 是 不 现实 的 。 假 如 我 们 有 该 系统 的 模型 ， 即 转移 概率 pj (a) 和 观察 代价 
g(i,&,7) 都 是 已 知 的 。 为 了 处 理 这 种 情况 ,我们 基于 下 面 所 述 的 Monte Carlo 模拟 和 最 小 二 
乘法 提出 使 用 策略 迭代 的 近似 (Bertsekas and Tsitsiklis, 1996 )。 

图 12-7 给 出 逼近 策略 和 迭代 算法 的 简化 框图 。 它 相似 于 图 12-3 所 示 的 传统 策略 迭代 算法 
框图 ， 但 有 一 个 重要 的 区 别 : 在 图 12-3 中 的 策略 求 值 步骤 由 它 的 一 个 逼近 所 替代 。 因 此 通 
近 策 略 和 迭代 算法 交替 进行 如 下 的 有 逼近 策略 求 值 步骤 和 策略 改进 步 又: 

1. 逼近 策略 求 值 步 骤 。 给 定 当 前 策略 py， 对 所 有 eR 
状态 i 的 实际 cost-to-go 函数 JODIA ERBA, Bp “Fw 
cost-to-go 函数 J*(i,w), MR w 是 完成 逼近 的 神经 网 
KER, 

2. RBA RHR. AABE cost-to-go 函数 Gi, 
w) 产 生 改 进 的 策略 x。 对 所 有 i， 新 策略 设计 对 I" (a, 
w) 是 贪心 的 。 

由 于 瘟 近 策 略 迭 代 算 法 产生 满意 解 ， 因 此 仔细 挑 
选 策略 初始 化 算法 非常 重要 。 这 可 利用 启发 式 思想 完 
成 。 或 者 我 们 可 以 从 某 个 权 值 向 量 w 开始 ， 用 它 导 出 
一 个 贪心 策略 ， 接 着 利用 该 策略 为 初始 策略 。 

假设 除 知道 转移 概率 和 观察 代价 之 外 ， 我 们 有 如 下 几 项 : 

。 一 个 稳定 的 策略 p 作为 初始 策略 。 

。 一 个 状态 集 % 代 表 运 行 环境 。 

。 对 于 每 个 iCX, cost-to-go 函数 (让 的 Mi) SPAR; 一 个 这 样 的 样本 记 为 (i， 

m)， 其 中 m=1, 2, =, M(i)ə 

令 J" Ci, w) iE cost-to-go 函数 (i) 的 逼近 表示 。 副 近 由 神经 网 络 完 成 (例如 用 反 向 传播 

算法 训练 的 多 层 感 知 器 )。 神 经 网 络 的 参数 向 量 w 利用 最 小 二 乘法 决定 ， 即 最 小 化 代价 函数 


MG) 

E(w) = Dy 2a (kG. m) — J*(i,w)) (12.32) 

在 确定 最 优 权 值 向 量 w 从 而 有 逼近 cost-to-go 函数 J*(i,w) 之 后 ,我 们 再 利用 下 列 公 式 确定 
it Q - 因子 (参看 式 (12.20) 和 式 (12.23) ) : 

Q(i,a,w) = 2, py(a)(gli,a,j) + YIG, w)) (12.33) 


其 中 pj(a) 为 在 行动 a( 已 知 ) 下 从 状态 i 到 状态 j 的 转移 概率 ，g (i, a, 站 是 观察 代价 (也 为 已 
知 ) ， 而 Y 是 规定 的 折扣 因子 。 根 据 下 列 公 式 ， 通 过 使 用 这 些 逼 近 Q - 因子 确定 一 种 改进 策 







逼近 策略 求 值 
外 的 神经 网 络 | 策略 人 


图 12-7 表 近 策略 先 代 算法 的 简化 框图 
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略 以 完成 迭代 (参看 (11.26)): 
uli) = arg min 0Q(i,a,w) (12.34) 


重要 的 是 注意 ， 式 (12.33) 和 (12.34) 仅 被 模拟 行动 


状态 
器 用 于 在 由 模拟 实际 访问 的 状态 而 不 是 在 所 
有 状态 产生 行动 。 正 因为 如 此 ， 这 两 个 公式 
没有 受到 维 数 灾 的 影响 。 


图 12-8 给 出 一 个 有 逼近 策略 迁 代 算法 的 更 
加 详细 的 框图 。 这 个 框图 由 四 个 互 连 的 模块 逼近 | 
Cost-to-go 


cost-to-go 
逼近 器 















组 成 (Bertsekas and Tsitsiklis, 1996) : hrc w) 

1. 模拟 器 ， 它 利用 给 定 的 对 状态 转移 概 
率 和 观察 到 的 一 步 代 价 构建 环境 的 一 个 替代 
模型 。 模 拟 器 产生 两 类 东西 : (a) 模 拟 环境 的 图 12-8 逼近 策略 选 代 算法 详细 设计 
行动 进行 响应 的 状态 ，(b) 对 给 定 策略 的 cost-to-go 函数 抽样 。 

2. 行动 发 生 器 ， 它 根据 (12.34) 式 产生 一 个 改进 策略 ( 即 一 系列 行动 )。 

3. cost-to-go AR, CIRS i 和 参数 向 量 w 产生 在 式 (12.33) AER (12.34) 1 AI 
近 cost-to-go 函数 J” (i,w)o 

4. 最 小 二 乘 求 解 器 ， 它 利用 由 模拟 器 对 策略 p 和 状态 提供 的 cost-to-go 函数 J*(i) 的 样 
本 ， 计 算 使 式 (12.32) 的 代价 函数 最 小 化 的 参数 向 量 w。 只 有 充分 评估 一 个 策略 和 确定 一 个 
最 优 参数 向 量 w 之 后 ， 才 能 启动 从 最 小 二 乘 求解 器 到 cost-to-go 逼近 器 的 连接 。 此 时 ， 由 
J’ (i, w" ) 蔡 代 cost-to-go 逼近 J“ (i,w). 

K 12-3 BIBI HME RARE, 

R 12-3 FERRERA E 









已 知 参数 : 转移 概率 pla) AR BR glia, j)o 
HE: 
1. 选择 一 个 稳定 策略 py 作为 初始 策略 。 
2. 使 用 由 模拟 器 产生 的 cost-to-go 函数 J" (i )AUPRARAE kC i,m), HERA EB) oe ae 
MC) 
w” = min (w) = min SMUG, m) - Je (jw)? 
™ ™ Emi 
的 参数 向 量 w。 
3. 根据 第 2 步 决 定 的 参数 向 量 w， 对 访问 的 状态 计算 晕 近 cost-to-go 函数 J (i,w). MERR Q- AF: 
Q(i,a,Ww) = 5 py(a)(g(i,a,j) + YÌ G, w)) 
jEX 
4. 确定 改进 策略 
ui) = arg min Q(i,a,w) 
5. 重复 第 2 步 至 第 4 步 。 
注 ; 第 3 步 和 第 4 步 仅 在 实际 访问 的 状态 而 不 是 所 有 状态 应 用 行动 。 
很 自然 ， 这 个 算法 的 运行 会 有 误差 ， 这 归 因 于 模拟 器 和 最 小 二 乘 求解 器 的 设计 不 可 避免 
地 不 完善 。 对 期 望 的 cost-to-go 函数 进行 最 小 二 乘 通 近 的 神经 网 络 可 能 缺乏 适当 的 计算 能 力 ， 
因而 成 为 第 一 个 误差 源 。 神 经 网 络 副 近 器 的 最 优化 和 由 此 而 来 的 参数 向 量 w 的 调整 是 基于 
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模拟 器 提供 的 期 望 反应 ， 因 此 成 为 第 二 个 误差 源 。 假 设 所 有 的 策略 求 值 和 策略 改进 是 分 别 在 [622] 
e 和 8 一定 的 误差 容许 限度 内 完成 的 ， 在 Bertsekas and Tsitsiklis( 1996) F HE 5A E ER ERA 

法 所 产生 的 策略 和 最 优 策略 的 性 能 之 间 差 异 的 因子 随 e 和 降低 而 趋 于 零 。 换 句 话 说， 逼近 
策略 算法 具有 最 小 性 能 (差异 ) 的 可 靠 保 证 。 根 据 Bertsekas and Tsitsiklis( 1996), ERIRE 
算法 初始 阶段 能 够 取得 迅速 而 且 十 分 单调 的 进展 ， 但 在 极限 情况 下 一 个 随机 性 的 持续 的 策略 
振荡 可 能 发 生 。 这 种 振荡 行为 出 现在 逼近 cost-to-go 函数 J 到达 最 优 值 1 的 区 域 0((3+ 
W/A-yY DAZE, Hh 为 折扣 参数 。 对 所 有 逼近 策略 迭代 的 变 体 ， 它 们 都 明显 地 有 
导致 振荡 行为 的 根本 结构 。 


12.8 Q- 学 习 


图 12- 1 中 增强 式 学 习 系 统 的 行为 目标 ， 是 在 试验 各 种 可 能 的 行动 序列 和 观察 引起 的 代 
价 以 及 发 生 的 状态 转移 之 后 ， 如 何 寻 找 最 优 ( 即 最 小 化 代价 ) 策 略 。 在 这 种 背景 下 我 们 可 能 提 
出 下 列 问题 : 是 否 存在 仅 通 过 基于 形式 为 

Sn = (bas Qn ss Ba) (12.35) 

的 样本 获得 的 经 验 学 习 最 优 策略 的 在 线程 序 ? 上 式 中 n 表示 离散 时 间 ， 每 个 样本 s, 组 成 一 
个 四 元 组 ， 描 述 为 在 状态 i 上 的 一 个 试验 行动 a, ， 以 代价 g = glin, a,j, ) FR fj, = ia 
的 状态 转移 。 对 于 这 个 基本 问题 的 回答 是 断然 地 肯定 ， 它 是 由 Watkins( 1989) 发 现 的 一 种 称 
为 Q- 学 习 包 的 随机 方法 。Q -学 习 是 一 种 增 量 式 的 动态 规划 过 程 ， 用 一 步 一 步 的 方式 决定 
最 优 策略 。 它 非常 适合 于 求解 没有 明显 的 转移 概率 知识 的 Markov 决策 问题 。 但 是 成 功 应 用 
Q- 学 习 的 关键 在 于 假设 环境 状态 是 完全 可 观察 的 ， 这 就 意味 着 环境 是 完全 可 观察 的 Markov 
链 。 

回忆 12.4 节 中 状态 -行动 对 (i，a) 的 Q -因子 0(i，c) 由 式 (12.23) 定 义 ， 而 Bellman 
最 优 性 方程 由 式 (12.22) 定 义 。 联 合 这 两 个 方程 并 且 利 用 (12.20) 给 出 的 立即 期 望 代 价 c(i， 
a) 的 定义 ,我们 得 到 


O (i,a) = Poot, a,j) + Y min Q” (7 b)) 对 所 有 (i,a) (12.36) 


这 可 看 作 Bellman 最 优 性 方程 的 两 步 形式 。 式 (12.36) 的 线性 方程 组 的 解 对 所 有 状态 - 行动 对 
(i,@) 惟 一 地 定义 最 优 0 -因子 0 (i,a)。 

我 们 可 以 利用 基于 Q- 因子 构造 的 值 迭 代 算法 求解 这 个 线性 方程 组 。 因 此 ， 对 于 算法 的 L623 
P ERRE 


Q(i,a) = Po a)(g(i,a,j) + Y min Q(j,6)) 对 所 有 (i,a) 
这 个 迭代 的 小 步 长 的 形式 可 描述 为 
Q(i,a) = (1-9) QCi,a) tn X pagli a,j) + Y min Q(j,)) 对 所 有 (i,a) 


(12.37) 

其 中 "为 很 小 的 学 习 率 参数 ， 位 于 区 间 0<n<1 内。 
从 它 的 形式 上 看 ， 由 (12 .37) 描 述 的 值 闪 代 算法 的 一 次 迭代 要 求 转移 概率 的 知识 。 我 们 
可 以 构造 (12.37) 的 随机 方式 从 而 消除 对 这 一 先 验 知识 的 需求 。 特 别 ， 在 (12.37) 的 一 次 和 迭代 





454 #I2F 





中 对 所 有 可 能 状态 求 平 均 被 单个 样本 所 替代 ， 因 而 导出 下 列 对 Q- 因子 的 更 新 公式 : 
Q..41Ci,a) = (1-0 (i a))Q, (i a) +q (i a)l gli a,j) + YG] 对 (i,a) = (ipsa) 
(12.38) 
其 中 J. (J) = min Q,(j, b) (12.39) 
Aj ARRS, mC a) 为 在 在 时 间 步 n 时 状态 -行动 对 (i, a) 的 学 习 率 参数 。 更 新 
公式 (12.38) 应 用 于 当前 状态 -行动 对 (i , a)， 根 据 式 (12.35) 此 时 j= j;。 对 允许 的 其 余 状 
aS -行动 对 ，Q - 因子 仍 保持 不 变 ， 表 示 为 


Qua lisa) = Qa) HERG, a) A Csa) (12.40) 
A (13.38) ER (12.40) ER Q- 学 习 算 法 的 一 次 迭代 。 
收敛 定理 
假设 学 习 率 参数 (i,a) 满 足 条 件 
(iva) = o PIÈU, a) < 2 对 所 有 (ia) (12.41) 


当选 代步 数 站 趋 于 无 穷 大 时 ， 假 定 所 有 的 状态 - 行动 对 被 无 限 地 经 常 访问 ， 那 么 ， 对 所 有 
状态 行动 对 (i,a) 由 Q- 学习 算法 产生 的 O- BF AAO, (i, a) 以 概率 1 AFR 
Q” (i,a)。 

一 个 保证 算法 收敛 的 时 变 学 习 率 参数 的 样本 为 
en = 1,2,. (12.42) 





a = Btn 
其 中 a 和 8B 为 正 数 。 

总 而 言 之 ，Q -学 习 算 法 是 值 迭代 策略 的 随机 逼近 形式 ， 在 算法 的 每 一 步 迭 代 中 它 支 持 
单个 状态 - 行动 对 的 Q - 因子 ， 即 观察 到 的 当前 状态 和 实际 执行 的 行动 。 最 重要 的 是 ， 无 需 
形成 固有 的 Markov 决策 过 程 的 明显 模型 ， 算 法 的 极限 收敛 到 最 优 Q - 值 。 一 旦 最 优 Q - 值 可 
用 ， 利 用 式 (12.30) 以 相当 少 的 计算 便 可 决定 一 个 最 优 策 略 。 

Q- 学 习 到 最 优 策 略 的 收敛 假设 使 用 Q - 因子 0, (i, a) 的 查 表 法 表示 。 这 种 表示 方法 简 
单 且 计算 效率 高 。 但 是 当 由 状态 - 行动 对 组 成 输入 空间 很 大 或 者 输入 变量 是 连续 的 ， 使 用 查 
表 法 需要 大 量 内 存 ， 因 而 开销 特别 大 。 在 这 种 情况 下 ， 我 们 可 以 利用 神经 网 络 进行 函数 逼 
近 。 

Bik Q -学习 

式 (12.38) 和 式 (12.39) 定 义 当 前 状态 - 行动 对 的 Q - 因子 更 新 公式 。 这 一 对 公式 可 以 重 

写成 等 价 形式 
Quai Cins Gn) = QnC insan) 
+ MaC insan) [eis a sjs) + Y min Qa Cab) ~ Qn lin» an) ] 


将 式 (12.43) 右 边 方 括号 内 的 表达 式 当 作 更 新 当前 Q - 因子 O (i, ,a ) 的 误差 信和 号， 我 们 可 以 
在 时 间 步 ”时 确定 目标 (期 望 )Q - AFH: 


(12.43) 
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On Cin, an) = gC ins ansJa) + y min Qn jn» 8) (12.44) 
EP nih AERA. 12.44) HERE HR Q - 因子 时 后 继 状 态 j, 发 挥 关键 作用 。 
利用 这 个 目标 Q - 因子 的 定义 ， 我们 可 以 重新 构造 Q - 学 习 算 法 的 公式 为 
Qu (ia) = Q,(i,a) + AQ,(i,a) (12.45) 
其 中 当前 Q - AF BRE A 
. o fm lOreGi,a)-Q,(i,a)) 对 (oa) = (i,,4,) 
AQ, Cia) = | 0 否则 
由 定义 ， 当 前 状态 i, 的 “最 优 ” 行 动 w 是 在 时 间 步 n 时 对 该 状态 具有 最 小 Q ~ 因子 的 行 
动 。 因 此 ， 在 状态 i, 处 给 定 所 有 允许 的 行动 aC, MQ-AF Q, Cina), (12.44) PiE 
用 的 最 优 行动 a, 由 下 式 给 出 : 


Q, = min Q,(i,,@) 
aE; 


(12.46) 


Qet(i, a, w) 


(12.47) 

S Ôi a, W) AHS 
网 络 ( 例 如 利用 反 向 传播 算法 训 
练 的 多 层 感 知 器 ) 计 算 的 Q - A 图 12-9 用 于 允 近 目标 Q- 因子 O° (i,a,w) 的 神经 网 络 设计 
子 0,(i,, a) 的 逼近 。 具 有 参数 向 量 w 的 神经 网 络 的 输入 为 当前 状态 -行动 对 (i ,a,)， 产 
生 输 出 0, (i, ,a, ,Ww)， 如 图 12-9 所 示 。 在 算法 的 每 步 选 代 中 ， 轻 微 地 改变 神经 网 络 的 权 值 
向 量 w 使 得 输出 0, (i, ,a, ,Ww) 更 靠近 目标 值 0”™(i,, a)。 但 是 ， 一 旦 权 值 向 量 w 改变 了 ， 
目标 值 就 间接 受到 影响 ， 也 就 是 改变 了 值 QS" (i, , a, ,w)。 因 此 不 能 保证 每 次 迭代 都 缩短 这 
两 个 Q- 值 间 的 距离 。 这 也 是 为 什么 到 近 Q - 学 习 算 法 可 能 发 散 的 原因 。 如 果 算 法 不 发 散 ， 
权 值 向 量 w 提供 在 训练 后 的 神经 网 络 中 存储 逼近 的 Q - 因子 的 手段 ， 因 为 神经 网 络 输出 
0,( 志 ,0,，W) 作 为 对 输入 (i, ,a, ) 的 响应 。 

表 12-4 给 出 逼近 Q - 学习 算法 的 小 结 。 

表 12-4 通 近 @Q- 学习 算 法 小 结 
1. 从 初始 权 值 向 量 wo 开始 ， 得 到 Q- 因子 Olio aow); 权 值 向 量 w 借助 所 用 的 神经 网 络 完成 逼近 。 


2. MR n=1, 2, =, MP JLE: 
(a) 对 于 神经 网 络 设 定 的 w， 确 定 最 优 行动 





an = min Q,(i,,4a,W) 
ach; 


(b) 确 定 目标 Q- 因子 


Qe (ind, W) = Bins Gn jn) + Y min Qn ins OW) 
ses, 
《c) 更 新 Q- 因子 
Qnat linsan WwW) = Q,Ci,,¢,,W) + AQ, (ins an W) 
其 中 
Nn Cin s an QU (i, an, W) 一 Qn (Pany W)), (i,a) = (insan) 
0, 其 他 
(d) 应 用 (六 ,ao) 作 为 神经 网 络 的 输入 ， 产 生 输出 0, lin, a ,w) 作 为 目标 Q - 因子 0we( i,, a, wK, RA 
改变 权 值 向 量 使 得 0, (i, , a, ,w) 更 靠近 目标 值 OW" (i , a, ,w)。 
(e) 回 到 步骤 (a)， 重 复 计算 。 


AQ, (ig s an W) = { 
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R 测 


在 策略 迭代 中 ， 状 态 空 间 的 所 有 潜在 重要 的 部 分 都 应 探测 到 。 在 Q - 学 习 中 我 们 有 一 个 
附加 要 求 : 所 有 潜在 有 用 的 行动 也 都 应 被 测试 。 特 别 ， 对 所 有 允许 的 状态 - 行动 对 应 该 经 常 
探测 足够 的 次 数 以 满足 收敛 定理 。 对 于 记 为 的 贪心 策略 ， 只 有 状态 -TIX C, u i) ) 被 探 
测 。 遗 憾 的 是 并 不 能 保证 测试 所 有 有 用 的 行动 ， 即 使 探测 完 所 有 状态 空间 亦 是 如 此 。 

我 们 需要 的 策略 是 提供 两 个 冲突 目标 之 间 的 折衷 ， 以 此 扩展 Q -Y (Thun, 1992): 

。 探测 ， 它 保证 对 所 有 人 允许 的 状态 -行动 对 探测 足够 次 数 以 满足 Q ~ 学 习 收 敛 定理 。 

。 利用 ， 它 遵循 贪心 策略 以 寻求 最 小 化 cost-to-go 函数 。 

达到 这 种 折衷 的 一 种 方法 为 遵循 混合 非 稳 定 (mixed nonstationary) 策 略 ， 这 个 策略 在 一 个 
辅助 Markov 过 程 和 由 Q - 学 习 确 定 的 稳定 贪心 策略 控制 的 原始 Markov 过 程 之 间 转 换 
(Cybenko, 1995) 。 辅 助 过 程 有 下 列 解释 : 可 能 状态 间 的 转移 概率 由 原始 控制 过 程 的 转移 概率 
确定 ， 原 始 过 程 具有 附加 成 分 ， 其 对 应 的 行动 是 一 致 随机 性 的 。 混 合 策略 从 辅助 过 程 的 任何 
状态 开始 ， 随 之 选择 行动 ， 然 后 切换 到 原始 控制 过 程 ， 以 图 12-10 中 的 方式 向 前 或 向 后 进 
行 。 消 耗 在 辅助 过 程 上 的 操作 时 间 占 有 固定 数目 的 工 步 ， 比 如 说 ， 定 义 为 访问 辅助 过 程 所 
有 状态 的 最 长 期 望 时 间 的 两 倍 。 消 耗 在 原始 控制 过 程 的 时 间 随 每 次 切换 逐步 增加 。 令 n, 表 
示 从 辅助 过 程 到 原始 控制 过 程 的 切换 时 间 ，m 表示 切换 回 辅助 过 程 的 时 间 ，n 和 mi 分 别 
定义 为 

n = Mma + L,k = 1,2,.…, H m = 1 
和 mMm, = n, + kL, k=l, 2, = 
构造 辅助 过 程 使 得 当 k->% 时 ， 以 概率 1 访问 所 有 状态 无 穷 次 ， 因 而 保证 收敛 到 最 优 Q- 
关子。 进一步 ， 当 kk 一 % ,混合 策略 在 辅助 过 程 上 所 消耗 的 操作 时 间 渐 进 地 为 消耗 在 原始 
控制 过 程 的 操作 时 间 的 一 小 部 分 ， 这 就 意味 着 混合 策略 渐进 收敛 到 一 个 贪心 策略 。 因 此 ， 
MR Q - 因子 收敛 到 它们 的 最 优 值 ， 贪 心 策略 确实 必定 是 最 优 的 ， 只 要 策略 变 为 贪心 策略 
时 足够 地 慢 。 


辅助 过 程 
| 原始 控制 过 程 
mo=1 n m n m, ns 


图 12-10 ”属于 辅助 过 程 和 原始 控制 过 程 的 时 间 段 
12.9 计算 机 实验 


在 这 个 计算 机 实验 中 重新 讨论 在 例 12.1 中 考虑 的 又 车 问题 。 这 次 我 们 利用 逼近 Q -学 
习 求解 问题 。 利 用 两 种 方法 实现 算法 : 一 种 方法 使 用 表 来 表示 Q - 值 ， 另 一 种 方法 使 用 神经 
网 络 。 

图 12-11 给 出 使 用 表 方 法 的 下 列 Q - 因子 的 学 习 历 史 : OCA,up), OCC, straight ), 
QCE, straight) 0Q(1,up)。 在 图 12-1 中 虚线 表示 期 望 的 Q - 值 。 每 次 试验 为 从 状态 7 到 目 
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标 状态 J 的 完整 路 线 ， 每 次 试验 的 开始 状态 随机 挑选 ， 学 习 率 参数 加 (ia) 定 义 为 
av, (i,a) 


加 (ia) = K+ 0,(i,a) 
20 
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图 12-11 利用 查 表 法 求解 驿 车 问题 的 学 习 曲 线 
a) 0(4,up) 的 学 习 曲 线 b)Q(C,straight) 的 学 习 曲 线 
c) QCE, straight) 的 学 习 曲 线 。”d) 0(1,up) 的 学 习 曲 线 


其 中 v,(i,a) 为 当前 时 刻 为止 所 访问 的 状态 -行动 对 的 数目 ，a= 1.6， 天 = 600。 总 共 完 成 
1000 次 之 后 ， 找 到 最 优 路 线 为 

4 一 了 一 下 一 了 7 一/ 
这 是 一 条 确认 为 最 优 路 线 ， 总 的 代价 为 11。 

图 12- 12 表示 利用 两 个 输入 节点 、10 个 隐藏 单元 和 1 个 输出 神经 元 的 多 层 感知 器 获得 的 
相应 结果 。 一 个 输入 节点 代表 状态 而 另 一 个 节点 代表 从 一 个 状态 到 下 一 个 所 采取 的 行动 。 多 
层 感知 器 的 输出 表示 网 络 计 算出 的 0 - 值 。 网 络 使 用 标准 的 反 向 传播 算法 。 在 时 刻 n 时 使 
用 的 目标 0 - 值 利用 (12.44) 计 算 。 学 习 率 参数 设置 为 0.012， 没 有 使 用 动量 。 对 每 个 状态 - 
行动 对 训练 网 络 10 000 次 。 图 12-12 表示 Q - 值 的 学 习 历 史 : 0(4,up)，0(C,straight)， 
QCE, straight) fA Q(71,up)。 网 络 发 现 的 最 优 路 线 为 

4 一 也 一 下 一 万 一 J 
这 仍 是 一 条 被 承认 的 最 优 路 线 ， 总 代价 为 11。 
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c) d) 
图 12-12 利用 神经 网 络 求解 驿 车 问题 的 学 习 曲 线 
a) 0(4,up) 的 学 习 曲线 。b) 0( C,straight) 的 学 习 曲 线 
c) 8(E,straight) 的 学 习 曲 线 。d) OC, up) AE HR 
两 种 实现 方法 的 计算 要 求 小 结 如 下 : 
(a) 神 经 网 络 ; 
输入 数目 =2 
隐藏 神经 元 数目 = 10 
输出 神经 元 数目 =1 
突 触 权 重 和 偏 置 总 数目 =2x10+10+10x1l1+1=41 
(b) 查 表 法 : 
状态 数目 = 10 
行动 数目 =2 或 3 
表格 大 小 = 21 
在 这 个 实验 中 可 能 的 状态 数目 很 小 ， 导 致 的 结果 是 查 表 法 比 神 网 络 要 求 更 少 的 存储 。 但 
是 在 大 规模 问题 中 状态 数目 非常 大 ， 神 经 网 络 常常 在 存储 要 求 方 面 比 查 表 法 获得 优势 。 


12.10 小 结 和 讨论 


结合 经 典 的 动态 规划 的 数学 形式 和 神经 网 络 的 学 习 能 力 ， 神 经 动态 规划 为 需要 规划 的 行 
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为 任务 提供 强 有 力 的 求解 方法 。 在 增强 式 学 习 这 个 现代 方法 中 ， 系 统 学 会 做 两 件 事 : 通过 观 
察 它 自身 的 行为 做 出 好 的 决策 ， 和 通过 增强 机 制 改进 它 的 行动 。 固 有 的 决策 过 程 服从 Markov 
模型 。 

在 本 章 我 们 描述 了 两 种 神经 动态 规划 过 程 : 

1. ERER. FEEL PEA HE RS Me CH 

。 策略 求 值 ， 确 定 当 前 策略 的 cost-to-go 函数 。 

。 策略 改进 ， 对 当前 cost-to-go 函数 用 贪心 策略 更 新 当前 策略 。 

在 允 近 策略 迭代 中 ， 结 合 模 拟 和 函数 逼近 以 评估 策略 。 为 了 模拟 系统 的 Markov 模型 ， 
要 求知 道 状 态 转移 概率 。 为 了 进行 函数 和 逼近， 我 们 可 以 利用 神经 网 络 (例如 多 层 感知 器 、 径 
向 基 天 数 网 络 或 支持 向 量 机 ) ， 由 于 它 的 通用 逼近 性 质 ， 这 是 比较 适合 的 。 

2.33 Q- 学 习 。 在 值 选 代 中 ， 作 为 策略 选 代 的 替代 物 ， 利 用 收敛 于 最 优 策略 的 逐次 逼 
近 过 程 求解 Markov 决策 问题 。Q - 学 习 是 值 锡 代 的 异步 形式 ， 这 是 为 了 避免 需要 状态 转移 概 
率 的 明显 知识 而 构造 的 。 它 具有 如 下 富有 吸引 力 的 性 质 : 

。 如 果 所 有 的 状态 -行动 对 都 被 无 限 经 常 地 访问 ， 且 学 习 率 参数 满足 由 式 (12.41) 给 定 

的 条 件 ， 那 么 Q- 学 习 以 概率 1 收敛 到 最 优 Q - AF. 

。 Q- 学 习 直接 更 新 和 最 优 策略 相关 的 Q - 因子 估计 ， 从 而 避免 策略 迭代 中 涉及 的 多 次 

策略 求 值 步骤 。 

在 逼近 Q- 学 习 中 ， 利 用 神经 网 络 逼 近 Q - 因子 的 估计 是 为 了 在 可 能 的 状态 数目 很 大 时 
避免 需要 过 量 的 存储 要 求 。 简 言 之 ,逼近 Q - 学习 是 在 无 系统 模型 可 用 且 存 储 要 求 过 大 的 情 
况 下 用 于 求解 Markov 决策 问题 的 基于 模拟 的 算法 。 当 然 ， 它 甚至 可 用 于 有 系统 模型 可 用 的 
情况 ， 这 时 它 提供 逼近 策略 迭代 的 一 种 替代 。 

神经 动态 规划 技术 在 求解 主要 关心 的 规划 为 大 规模 问题 时 有 特殊 的 效果 。 对 于 这 类 问 
题 ， 由 于 需要 搜索 的 状态 空间 太 大 ， 传 统 的 动态 规划 方法 很 难 应 用 。 确 实 ， 神 经 动态 规划 已 
成 功 应 用 于 求解 许多 不 同 领域 的 困难 的 现实 世界 的 问题 ， 包 括 十 五 子 棋 (Tesauro, 1989, 
1994) ， 组 合 优化 (Bertsekas and Tsitsiklis,1996) ， 电 梯 调 度 (Crites and Barto,1996) 和 动态 频段 分 
配 (Singh and Bertsekas , 1997; Nie and Haykin,1996,1998)。 下 面 我 们 稍微 详细 地 描述 对 十 五 子 棋 
的 应 用 。 

在 Tesauro(1994) 首 次 报告 了 基于 神经 网 络 的 计算 机 程序 选手 玩 十 五 子 棋 ， 随 后 在 Tesauro 
(1994) 给 出 了 改进 ， 它 是 一 个 给 人 印象 特别 深刻 的 成 功 故事 ， 并 且 已 成 为 推动 神经 动态 规划 
中 研究 的 源泉 。 十 五 子 棋 是 一 种 古老 的 双人 棋盘 游戏 。 沿 着 一 条 有 效 的 一 维 路 径 对 弈 。 游 戏 
者 双方 轮流 掷 一 对 仍 子 ， 相 应 地 沿路 径 的 相反 方向 移动 他 们 的 棋子 。 游 戏 者 的 合法 移动 棋子 
依赖 于 掷 明 子 的 结果 和 棋盘 布局 。 首 先 把 自己 的 所 有 棋子 移 到 棋盘 的 最 终 目 标 者 为 胜 者 。 游 
戏 可 用 一 个 Markov 决策 过 程 建 模 。 它 的 状态 定义 为 棋盘 布局 的 描述 、 掷 蜗 子 的 结果 和 游戏 
者 作 的 移动 。Tesauro(1989) 利 用 监督 学 习 建 立 了 神经 - 十 五 子 棋 的 最 初 形式 。 给 定 状态 的 
“初始 "描述 ， 它 能 学 会 中 等 以 上 的 水 平 。 报 道中 也 许 最 有 趣 的 发 现 为 良好 的 规模 效应 ， 也 就 
是 说 ， 神 经 网 络 的 大 小 和 训练 次 数 增加 到 一 定 规模 ， 可 以 观察 到 性 能 有 重要 的 提高 。 研 究 使 
用 的 神经 网 络 为 使 用 反 向 传播 算法 训练 的 多 层 感 知 器 (MLP)。 利用 具有 40 个 隐藏 神经 元 的 
MLP 对 总 共 200 000 局 游戏 进行 训练 获得 了 最 好 的 性 能 。 在 随后 的 Tesauro( 1994) 研 究 报 告 中 ， 
利用 一 种 称 为 乐观 (optimistic)TD(X) 的 策略 迭代 形式 训练 神经 网 络 。TD(X) 代 表 时 序 差 分 学 
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习 ， 这 归功 于 Sutton(1988)。 乐 观 TDA) FEFAF IB UE cost-to-go 函数 J" 的 基于 模拟 的 方法 ， 在 
该 方法 中 策略 被 新 的 策略 j 所 替代 ， 新 策略 y 在 每 步 状态 转移 时 允 近 J* 是 贪心 的 
(Bertsekas and Tsitsiklis,1996) 。 基 于 这 个 神经 动态 规划 方法 的 计算 机 程序 通常 称 为 TD - 十 五 
FH; Tesauro 深 加 了 状态 的 ( 即 特 征 ) 提 取 函 数 作为 神经 网 络 输入 表示 ， 使 得 TD - 二 五子 模 
达到 优秀 大 师 的 水 平 ， 非 常 接 近 于 世界 上 最 好 的 棋 手 。 支 持 这 个 论断 的 事例 是 大 量 有 关 
TD - 十 五 子 棋 和 几 个 世界 级 棋 王 进行 对 弈 的 试验 (Tesauro,1995)。 


注释 和 参考 文献 


[1] 


[2] 


[5] 


增强 式 学 习 的 传统 处 理 方法 植 根 于 心理 学 ， 可 追溯 到 Thomdike(1911) 关 于 动物 学 习 早 
期 的 工作 和 Pavlov(1927) 关 于 条 件 反射 的 研究 。 对 传统 增强 式 学 习 的 方法 的 贡献 还 包括 
Widrow et al.(1973) 的 工作 ; 在 那 篇 文章 中 ， 引 入 了 评价 (critic) 的 概念 。 Hampson( 1990) 
以 书 的 形式 讨论 传统 的 增强 式 学 习 。 

对 现代 增强 式 学 习 的 主要 贡献 包括 Samuel(1959) 有 关 他 的 著名 的 棋子 游戏 程序 的 工作 ， 
Barto et al. (1983) 关 于 自 适应 评价 系统 的 工作 ，Sutton (1988) 关 于 时 序 差分 (temporal 
difference) 方 法 的 工作 和 Watkins(1989) 关 于 Q -学 习 的 工作 。White and Sofge(1992) 关 于 
智能 控制 的 手册 给 出 关于 White 和 Jordan 的 最 优 控制 、Barto 的 增强 式 学 习 和 自 适应 评 
价 方法 以 及 Werbos 的 启发 式 动态 规划 的 材料 。 

Bertsekas and Tsitsiklis(1996) 第 一 次 以 书 的 形式 给 出 现代 增强 式 学 习 的 处 理 。 有 关 增 强 
式 学 习 的 历史 资料 ， 参 看 Sutton and Barto(1998)。 

动态 规划 由 R. E. Bellman 等 在 20 世纪 50 年 代 晚 期 提出 ， 参 看 Bellman(1957), Bellman 
and Dreyfus(1962) ， 有 关 该 主题 的 详细 展开 参看 Bertsekas(1995b) 的 两 卷 书 。 

策略 迭代 和 值 送 代 是 动态 规划 的 两 个 主要 方法 。 另 外 有 两 个 值得 注意 的 方法 : Gauss- 
Seidel 方法 和 异步 动态 规划 (Barto et al., 1995; Bertsekas，1995b)。 在 Gauss-Seidel 方法 
中 ， 串 行 扫描 所 有 状态 ， 每 个 状态 根据 其 他 状态 的 最 新 代价 进行 竞争 ， 在 一 个 时 刻 只 
更 新 一 个 状态 的 cost-to-go 函数 。 异 步 动态 规划 和 Gauss-seidel 的 区 别 在 于 它 没 有 组 织 

系统 化 的 依次 扫描 状态 集 。 

Watkin(1989) 在 他 的 博士 论文 的 第 96 页 ， 对 Q -学 习 做 如 下 评语 : 

“附录 1 给 出 这 个 学 习 方 法 对 有 限 Markov 决策 过 程 工作 的 证 明 。 证 明 也 表明 该 学 习 方 
法 会 很 快 收敛 到 最 优 行动 -~ 值 函 数 。 虽 然 这 是 非常 简单 的 思想 ， 据 我 所 知 ， 以 前 从 未 
被 明显 提出 。 但 是 必须 指出 ， 有 限 Markov 决策 过 程 和 随机 动态 规划 用 于 若干 不 同 领域 
已 经 被 广泛 研究 三 十 多 年 了 ， 它 不 像 Monte - Carlo 方法 那样 以 前 无 人 考虑 过 。” 

在 对 这 些 评 论 的 一 个 足 注 中 ，Barto et al. (1995) 指 出 ， 虽 然 对 状态 -行动 对 赋值 的 思想 
被 Denardo(1967) 所 采用 ， 构 成 动态 规划 方法 的 基础 ， 但 他 们 没有 看 见 比 Watkins 的 
1989 论文 更 早 的 像 Q- 学 习 这 样 用 于 估计 这 些 值 的 算法 。 

Watkins(1989) 给 出 Q -学习 收敛 定理 证 明 的 概要 ， 后 来 在 Watkins and Dayan(1992) 中 给 
出 了 其 改进 。Tsitsiklis(1994) 给 出 了 Q- 学 习 收 敛 的 更 一 般 的 结果 ， 也 可 参考 Bertsekas 
and Tsitsiklis( 1996) 。 
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习题 
Bellman 的 最 优 准 则 
12.1 当 折 扣 因 子 y 接近 于 1 时 ，(12.22) 中 cost-to-go 函数 的 计算 变 长 。 为 什么 ? 说 明 


你 的 回答 的 理由 。 
12.2 在 本 题 中 我 们 给 出 由 Ross(1983) 得 到 的 关于 Bellman 最 优 性 方程 (12.22) 的 另 一 个 


证 明 。 
(a) 令 «为 任意 策略 ,假设 x 在 时 间 步 0 选择 行动 a RRN pa, aCA o WA 


TG) = 2 palelisa) + J3 pila) WG) 
其 中 W"()) 代 表 从 时 间 步 1 以 前 的 cost-to-go 函数 的 期 望 ， 这 里 假设 在 时 间 步 1 状态 为 j 
且 使 用 策略 x。 由 此 证 明 
(i) = min (c(i, a) + Y Dy Py (a) J(j)) 
其 中 W(j)ervG) 
(b) 是 在 时 间 步 0 选择 行动 a 的 策略 ， 如 果 下 一 个 状态 为 /， 可 看 作 过 程 以 状态 j 
开始 ， 遵 循 策略 n 使 得 
JG) JG) +e 
Hp e 是 一 很 小 正 数 。 由 此 证 明 
Ji) > min( e(i,a) +7 Dy Psa) 107)) + Ye 
(c) 用 (a) 和 (b) 导 出 的 结果 证 明 式 (12.22)。 
12.3 式 (12.22) 表 示 N 个 方程 的 线性 方程 组 ， 每 个 状态 用 一 个 方程 。 令 
F = [1), (2),, PCN)? 
elu) = lell, u), cl2,p) ,eCN, np) 
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pulu) Polu) vee pin (4) 
P(p) -= Pu Ca) Palp) n Paw (a) 
Pm (4) Pra (2) aa pw (2) 


证 明 式 (12.22) 可 以 重新 写成 等 价 的 矩阵 形式 : 
(I - YP(p))F = ely) 
其 中 了 工 为 单位 矩阵 。 讨 论 表 示 N 个 状态 的 cost-to-go 函数 的 向 量 J" 的 惟一 性 。 
12.4 Æ 12.3 节 中 我 们 推导 用 于 有 限 范围 问题 的 动态 规划 算法 。 在 本 题 中 对 一 个 折扣 
问题 重新 推导 这 个 算法 ， 其 中 cost-to-go MH PRE: 


K-1 
J’(Xo) = lim| D rga, aX), X)| 


特别 地 ， 证 明 
Jx (Xo) = min El g(Xo,p(Xo),%1) + YJ x, (X,)] 
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策略 迭代 

12.5 在 12.4 节 中 我 们 说 cost-to-go 函数 满足 

J” < J” 

证 明 这 个 论断 。 

12.6 讨论 式 (12.25) 描 述 的 论断 的 重要 性 。 

12.7 利用 控制 器 评价 系统 (controller critic system) ， 说 明 策 略 迭 代 算 法 中 策略 更 新 和 策 
略 求 值 之 间 的 相互 作用 。 
值 迭代 

12.8 一 个 动态 规划 问题 涉及 总 共 N 个 允许 状态 MM 个 允许 行动 。 假 定 使 用 一 个 稳定 策 
略 ， 证 明 值 迭 代 算 法 的 一 次 欠 代 需要 阶 为 M M 的 操作 。 

12.9 表 12-2 给 出 依据 对 状态 iC LAH cost-to-go 函数 (i) 构 造 的 值 迭 代 算法 公式 的 小 
结 。 依 据 Q - 因子 0(i，4a) 重 新 构造 这 个 算法 公式 。 

12.10 策略 迭代 总 是 在 有 限 步 后 终止 ， 但 是 值 迭代 可 能 要 无 限 次 迭代 。 讨 论 这 两 个 动 
态 规划 方法 之 间 的 其 他 差异 。 
Q- 学习 

12.11 证 明 

633 J*(i) = min O(i,a) 

12.12 Q- 学 习 算 法 有 时 称 作 值 迭 代 策 略 的 自 适 应 形式 。 证 明 这 种 描述 的 正确 性 。 

12.13 构造 由 表 12-4 小 结 的 逼近 Q -学习 算 法 的 信号 流 图 。 

12.14 X 12-4 小 结 的 逼近 Q - 学 习 算 法 假定 缺乏 状态 转移 概率 的 知识 。 假 定 可 以 用 这 

些 概率 ， 重 构 这 个 算法 。 





第 13 章 ”使 用 前 馈 网 络 的 时 序 人 处 理 


13.1 简介 


时 间 是 学 习 过 程 的 基本 组 成 。 它 可 以 是 连续 的 ， 也 可 以 是 离散 的 。 无 论 其 形式 如 何 ， 时 
间 是 一 个 有 序 实体 ， 是 在 实践 中 遇 到 的 许多 认 知 任务 如 视觉 、 语 音 、 信 号 处 理 以 及 马达 控制 
的 基础 。 通 过 将 时 间 引 入 神经 网 络 的 运行 ， 使 它 能 跟踪 在 一 些 非 平稳 过 程 ( 如 语音 信号 、 雷 
达 信 号 、 发 动机 引 敬 信号、 股票 市 场 价格 波动 ) 中 统计 的 变化 。 问 题 是 : 我 们 如 何在 神经 网 
络 运行 中 能 和 人 时间? 这 个 基本 问题 的 答案 在 于 两 个 可 能 方法 之 一 : 

。 隐 式 表示 。 时 间 是 通过 其 作用 于 信号 处 理 的 效果 以 一 种 隐 含 方式 来 表示 的 中。 例如 ， 

输入 信号 经 过 统一 采样 ， 和 网 络 输入 层 相连 的 每 个 神经 元 的 突 触 权 值 序列 和 输入 样 
本 的 不 同 序列 作 卷 积 (convolved)。 这 样 ， 输 入 信号 的 时 间 结 构 租 入 在 网 络 的 空间 结 
HE, 
。 显 式 表 示 。 时 间 由 它 自身 的 特定 表示 给 出 中 。 如 蝙蝠 的 回声 定位 系统 是 通过 发 射 短 
的 频率 调制 (FM) 信 号 ， 使 得 对 于 每 个 限制 在 FM 扫描 期 间 的 很 短 的 一 个 时 间 段 的 频 
道 维持 相同 的 强度 等 级 。 被 一 组 听觉 接收 器 编码 的 几 个 不 同 频率 之 间 的 多 种 比较 是 
为 了 抽取 目标 物 的 准确 的 距离 信息 (Suga and Kanwal, 1995)。 当 从 目标 的 回声 在 经 一 
段 未 知 时 延 以 后 被 接收 时 ， 一 个 具有 匹配 的 延迟 线 的 神经 元 (在 听觉 系统 ) 进 行 响应 ， 
从 而 提供 目标 范围 的 估计 值 。 
在 这 一 章 里 我 们 关心 时 间 的 隐 式 表达 ， 这 由 对 一 个 静态 神经 网 络 (如 多 层 感知 器 ) 提 供 动 态 属 
性 而 得 到 。 从 而 使 得 神经 网 络 对 信息 承载 信号 的 时 间 结 构 作 出 响应 。 

为 了 使 神经 网 络 为 动态 的 ， 必 须 给 它 记 忆 (memory)。 正 如 第 2 章 指出 那样 ， 记 忆 可 分 为 
“短期 "和 “长 期 "记忆 ， 这 要 依赖 于 保留 时 间 。 神 经 网 络 的 长 期 记忆 是 通过 监督 学 习 建 立 的 ， 
由 此 训练 数据 集 的 信息 内 容 存 储 ( 部 分 或 者 全 部 ) 在 网 络 的 突 触 权 值 上 。 但 是 ， 如 果 当 前 的 这 
项 任务 有 一 个 时 间 维 数 ， 我 们 需要 某 种 形式 的 短期 记忆 使 神经 网 络 为 动态 的 。 一 个 简单 的 在 
神经 网 络 结构 内 建立 短期 记忆 的 方法 就 是 使 用 时 延 (time delay)， 这 可 以 在 网 络 内 部 的 突 触 层 
或 网 络 的 输入 层 来 实现 。 在 神经 网 络 中 使 用 时 延 是 受到 神经 生物 学 启发 ， 因 为 在 人 脑 中 信和 号 
延迟 无 处 不 在 ， 并 且 它 在 神经 生物 信息 处 理 中 起 着 重要 作用 (Braitenberg, 1967, 1977, 1986; 
Miller, 1987) 。 


本 章 的 组 织 


本 章 的 内 容 分 为 三 个 部 分 。 第 一 部 分 ， 包括 13.2 节 和 13.34, 论述 网 络 结 构 和 模型 。 
在 13.2 节 ， 我们 讨论 记忆 的 结构 ， 接 下 来 的 13.3 节 描 述 对 于 信和 号 时 间 处 理 的 两 种 不 同 的 网 
络 结构 。 

本 章 的 第 二 部 分 包括 13.4 节 到 13.6 节 ， 论 述 一 类 被 称 为 集中 时 兆 的 前 馈 网 络 的 神经 网 
络 ; 术语 “集中 ”(focused) 指 的 是 短期 记忆 被 全 部 放置 在 网 络 的 前 端 。 在 13.6 节 讨 论 这 一 结 
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构 的 计算 机 实验 。 

本 章 第 三 部 分 ， 包 括 13.7 节 到 13.9 节 ， 论 述 分 布 式 时 滞 前 馈 网 络 ， 在 这 种 网 络 中 延迟 
线 被 分 布 于 整个 网 络 。13.7 节 描 述 一 个 神经 元 的 时 空 模型 ， 接 下 来 在 13.8 节 论 述 刚 刚 提 到 
的 第 二 类 神经 网 络 。 在 13.9 节 讨 论 用 于 分 布 式 时 滞 前 僻 网 络 的 监督 学 习 的 “时 序 " 反 向 传播 
算法 。 

这 一 章 在 13.10 节 中 以 一 些 最 后 评论 作为 结束 。 

13.2 短期 记忆 结构 


记忆 的 主要 作用 是 将 一 个 静态 的 网 络 转变 成 一 个 动态 的 网 络 。 特 别 地 ， 将 记忆 府 人 到 诸 


如 通常 的 多 层 感知 器 的 静态 网 络 结构 中 ， 网 络 的 输出 变 成 时 间 的 函数 。 建 立 非 线 性 动态 系统 
的 这 种 方法 是 直接 的 ， 因 为 它 对 职责 作 了 明确 的 分 离 静态 网 络 负 责 非 线 性 的 处 理 ， 而 记忆 
负责 时 间 的 相关 处 理 。 

短期 记忆 站 可 以 在 连续 的 时 间或 离散 的 时 间 中 实现 。 连 续 时 间 用 ; 表示 ， 离 散 的 时 间 用 
n 表示 。 图 13-1 中 电阻 - 电容 电路 图 就 是 一 个 连续 时 间 记 忆 Wt 
的 例子 ， 它 的 特征 是 的 脉冲 响应 ( 即 记忆 痕迹 )h(i) 按 时 间 2 输入 信号 输出 信号 
的 指数 函数 衰减 。 在 本 章 后 面 描述 的 神经 元 加 性 模型 的 模拟 。 | 。 
实现 中 ， 这 个 电路 在 突 触 级 负责 记忆 。 这 一 节 我 们 主要 关心 图 13-1 电阻 电容 电器 
离散 时 间 记 忆 。 


处 理 离散 时 间 系 统 的 一 个 有 用 工具 是 z - 变换 。 令 |x(n)| 表 示 高 散 时 间 序 列 ， 可 以 扩展 
到 无 限 的 过 去 。 它 的 z- 变换 和 (z) 定 义 为 


œ 


X(z) = 之 a(n)z-" (13.1) 

其 中 z 是 单元 延迟 操作 符 ; 也 就 是 说 ，z -作用 在 x (2) 上 ， 产 生 延 迟 形式 x(n-Veo 假设 

x(n) 用 于 脉冲 响应 h(n) 的 一 个 离散 时 间 系 统 。 这 个 系统 的 输出 y(n) 由 下 面 的 卷 积 和 定义 ;: 

y(n) = DD h(n (13.2) 

当 x(n) 等 于 单元 脉冲 时 ， y(n) 产 生 系统 的 脉冲 响应 An)。z -变换 的 一 个 重要 性 质 是 时 间 

域 上 的 卷 积 变 成 z 域 上 的 乘积 (Oppenheim and Schafer, 1989; Haykin and Van Veen,1998 )。 我 们 
WFR ESOP Cn) | A y(n) AS z -变换 分 别 为 H(z) 和 Y(z)， 则 有 





Y(z) = H(z)X(z) (13.3) 
或 者 等 价 地 H(z) = Ka (13.4) 


PRA HERAA RRRA 3 A (transfer function) 。 

图 13-2 显示 一 个 含有 p 个 相同 节点 级 联 的 离散 时 间 记 忆 框 图 ; 今后 p 称 为 记忆 的 阶 。 
每 个 延迟 片段 ， 可 以 看 作 操 作 符 ， 由 传递 函数 G(z) 定 义 其 特征 (如 图 所 示 )。 同 样 ， 每 个 片 
段 可 以 根据 脉冲 响应 g(n) 来 描述 ， 具 有 下 述 两 个 特征 : 

。 它 是 因果 的 ， 即 当 m<0 时 ，g(n) =0。 

。 它 是 归 一 化 的 ， 即 有 >) ,1 g(n) 1= 1。 

因此 g(n) 称 为 离散 时 间 记 忆 的 产生 核 。 
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图 13-2 p 阶 广义 抽 头 延迟 线 记 忆 


根据 图 13-2， 我 们 可 以 形式 地 定义 离散 时 间 记 忆 为 线性 时 间 不 变 的 单 输 入 多 输出 系统 
(single input-multiple output, SIMO ) ， 并 且 其 产生 核 满足 上 述 两 个 条 件 。 那 些 与 记忆 输出 端点 
相连 接 的 节点 ， 称 为 抽 头 (tap)。 注 意 对 一 个 p 阶 的 记忆 来 说 ， 共 有 p + 工 个 抽 头 ， 只 有 一 个 
抽 头 是 属于 输入 。 

可 以 用 深度 和 分 辩 率 来 衡量 记忆 结构 的 属性 。 设 记忆 结构 中 总 的 脉冲 响应 为 g, Cn), 
义 为 g(n) 的 p 个 逐次 卷 积 ,或 者 等 价 于 G?(z) 的 逆 z - 变换 。 记 忆 深 度 记 为 D, 定义 为 
g (n) —HN [B58 (moment), #2a A 


æ 


D = Dy ng (1) (13.5) 
一 个 低 深 度 D 的 记忆 只 能 将 信息 内 容 保持 较 短 的 时 间 ， 而 高 深度 的 记 PERREN 
记忆 分 辩 率 记 为 R， 指 的 是 每 个 单位 时 间 内 记忆 结构 中 的 抽 头 数目 。 一 个 高 分 辨 率 R 的 记 


忆 结 构 能 将 输入 的 序列 信息 保持 在 精确 的 层次 上 ， 而 低 分 关 素 的 记 人 结构 能 保存 组 扫 和 

层次 上 。 当 抽 头 数目 固定 时 ， 记 忆 深 度 和 记忆 分 辩 率 的 乘积 对 p 阶 记忆 是 一 个 常量 。 
选择 不 同 的 产生 核 g (m) 会 产生 不 同 的 深度 D 和 分 辨 率 尺 ， 这 可 以 用 下 面 两 个 记忆 结构 

来 说 明 。 

抽 头 延迟 线 记 忆 图 13-3 显示 的 框图 是 短期 记忆 最 简单 和 最 常用 的 形式 ， 称 为 抽 头 延 

3R RiZ IZ (tapped delay line memory). Ef p 个 单位 延迟 操作 符 ， 每 个 都 表示 为 C(z) = 

z “ 。 也 就 是 说 ， 产 生 核 为 g(n) = 6(n -1)， 其 中 其 中 8(n) 是 单位 脉冲 


1, n=0 
| 
(n) lo, n «0 


单元 
x(n- 1) x(n - 2) x(n p+1) x(n — p) 
2 eee EEPE PER 
x(n 


-一 
输出 端 


图 13-3 通常 的 p 阶 抽 头 延迟 线 记忆 


图 13-3 的 抽 头 延迟 线 的 总 脉冲 响应 为 g,(n) =C- p) 将 g,(n) 代 入 式 (13.5) 中 产生 记忆 
深度 D = p， 这 一 点 直观 上 是 满足 的 。 从 图 13-3 中 我 们 可 以 看 出 每 个 单位 时 间 内 只 有 一 个 抽 
头 ; 因此 ，R = 1。 这 样 抽 头 延迟 线 的 记忆 深度 随 着 p 的 阶 数 增 大 而 线性 增长 ， 但 是 它 的 记 
忆 深 度 在 单位 时 间 内 是 固定 不 变 的 ; 并 且 它 的 深度 -分 辩 率 乘积 也 是 一 个 常数 。 


(13.6) 
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我 们 需要 额外 的 自由 度 去 实现 对 于 记忆 深度 的 控制 。 这 种 准备 可 以 通过 下 面 考虑 的 一 个 
对 抽 头 延迟 线 的 替代 来 提供 。 输入 H zt 输出 
Gamma 记忆 ”图 13-4 显示 用 于 被 称 为 gamma “信和 号” 《 人 9 信号 
记忆 的 记忆 结构 的 基本 功能 块 G(z) 的 信号 流 图 。 
特别 地 ， 记 忆 结构 的 每 个 部 分 包含 一 个 带 有 单位 
延迟 a-! 的 反馈 环 以 及 一 个 可 调整 的 参数 y。 每 … 图 13-4 一 个 gmma 记忆 片段 的 信号 流 图 
个 这 样 部 分 的 传递 函数 为 


l-p 


B Hz E u 
G(z) = 1-0- sn (13.7) 


为 了 稳定 性 ，C(z) 在 z=1-y 处 的 惟一 极点 必须 在 z 平面 的 单位 圆 内 。 这 就 要 求 





O<p<2 (13.8) 
Gamma 记忆 的 产生 核 是 C(z) Wwe z - 变换 ， 即 
g(n) =p- p), nol (13.9) 


式 (13.8) 中 的 条 件 保证 g(n) 随 着 n 增 大 至 无 穷 而 指数 地 衰减 到 零 。 
Gamma 记忆 总 的 脉冲 响应 是 总 的 传递 函数 的 道 : - 变换 


G,(z) = (5) 


-1 
Bp ein =(" eao, n>p (13.10) 


0) eee eee See n Mp 为 整数 。 对 于 不 同 的 
p， 总 的 脉冲 响应 g, (n) 表 示 Gamma 函数 的 被 积 函 数 的 离散 形式 (deVries and Principe, 1992 )， 
这 正 是 记忆 命名 的 原因 。 图 13-5 显示 一 能 脉冲 响应 g,(n)， 它 们 对 jp 归 一 化 ， 其 中 j=0.7， 
p=1,2,3,4 。 注 意 在 图 13-5 中 时 间 坐 标 轴 按 参数 人 标 度 。 这 种 标 度 具 有 将 g (4) 的 峰值 定 
位 在 n= p 的 作用 。 

1 





2 4 6 10 


8 
E 13-5 Xf p=1,2,3,4 AY Gamma 记忆 的 脉冲 响应 徐 ， 其 中 =0.7 
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Gamma 记忆 的 深度 为 p/x， 分 辩 率 为 p, TREE - 分辨 率 的 乘积 为 p。 相 应 地 ， 通 过 选择 
小 于 单位 的 值 ， 对 于 特定 的 阶 p，Gamma 记忆 在 抽 头 延迟 线 的 深度 有 所 提高 (但 是 牺牲 了 
分 辨 率 )。 当 = 1 时 ， 这 些 量 将 减 至 各 自 的 抽 头 延迟 线 上 假设 的 值 。 因 此 ， 抽 头 延 迟 线 只 是 
Gamma 记忆 的 一 个 特例 。 这 个 结论 同样 可 以 在 式 (13.9) 中 设置 上 = 1 得 到 证 实 。 如 果 大 于 1 
而 小 于 2， 那 么 (1 - j) 在 这 个 方程 中 变 为 负 值 ， 但 是 绝对 值 小 于 1。 


13.3 用 于 时 序 处 理 的 网 络 体系 结构 


时 序 处 理 的 网 络 结构 不 只 一 种 形式 ， 这 正如 记忆 结构 一 样 。 在 这 一 节 我 们 将 描述 两 种 前 
馈 网 络 体系 结构 ， 它 们 分 别 以 自己 的 方式 丰富 了 时 序 处 理 文献 。 


NETtaik 


NETtalk 由 Sejnowski and Rosenberg(1987) 设 计 ， 是 将 英语 语音 转化 为 音素 的 一 个 大 规模 并 
行 分 布 式 网 络 的 一 个 例子 。 一 个 音素 (phoneme) 是 一 个 基本 的 语言 单位 。 图 13-6 就 显示 一 个 
NETtalk 的 示意 图 ， 它 建立 在 一 个 多 层 感知 器 的 基础 上 ， 输 入 层 有 203 个 感知 节点 的 ， 隐 藏 
BA 80 个 神经 元 ， 输 出 层 有 26 个 神经 元 。 所 有 神经 元 使 用 sigmoid(logistic) 型 激活 函数 。 这 
个 网 络 的 突 触 连接 有 18 629 个 ， 每 个 神经 元 包含 有 可 变 的 阔 值 。 闭 值 是 篇 置 的 负 值 。 这 个 
网 络 使 用 标准 的 反 向 传播 算法 进行 训练 。 

教师 


输出 神经 元 COOOOO 


隐藏 神经 元 OOOoOOOCOCOOCCOCCCOOCO 


/iii\、\、N 


源 节 点 0000 O000 O000 coco 0000 0000 O000 


( - a 一 c a t - ) 
Æ 13-6 NETtalk 网 络 体系 结构 的 示意 图 


这 个 网 络 有 七 组 输入 节点 。 每 组 对 输入 文本 的 1 个 字母 进行 编码 。 从 而 每 次 将 7 个 字母 
组 成 的 串 呈 现 给 输入 层 。 训 练 过 程 的 期 望 响应 是 和 7 个 字母 窗口 中 央 的 一 个 ( 即 第 4 个 ) 相 联 
系 的 正确 音素 。 另 外 6 个 字母 (在 中 间 字 母 两 边 各 3 个 ) 对 网 络 的 每 一 个 决策 来 说 提供 部 分 
的 上 下 文 。 通 过 一 个 字母 接着 一 个 字母 的 方式 使 文本 通过 窗口 。 在 处 理 的 每 一 步 中 ， 网 络 都 
计算 一 个 音素 ,每 学 完 一 个 单词 后 ， 网 络 的 突 触 权 值 就 根据 计算 出 的 发 音 与 正确 的 发 音 的 接 
近 程 度 进 行 调整 。 

NETtalk 的 性 能 展示 了 和 观察 到 的 人 特性 的 一 些 相 似 之 处 ， 可 总 结 为 以 下 几 点 (Sejnowski 
and Rosenberg, 1987 )。 

。 训练 遵守 有 力 的 规律 (power law) 

。 网 络 学 习 的 单词 越 多 ， 它 泛 化 和 新 词 正确 发 音 的 性 能 就 越 好 。 

。 当 网 络 的 突 触 连 接受 破坏 时 ， 网 络 性 能 的 下 降 非常 缓慢 。 
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。 在 网 络 遭 到 破坏 以 后 ， 进 行 重新 学 习 ， 学 习 的 速度 要 比 原 始 (以 前 的 ) 训 练 快 得 多 。 
NETtalk 出 色 地 说 明了 学 习 的 很 多 方面 的 微小 细节 ,在 开始 的 时 候 ， 在 它 的 输入 模式 中 具有 
大 量 “ 先 天 ”的 知识 并 且 通 过 实践 逐渐 获得 将 英语 语音 转化 为 音素 的 能 力 。 但 是 ， 它 还 没有 走 
向 实际 的 应 用 。 

时 延 神经 网 络 


使 用 普通 的 时 间 延 迟 来 执行 时 序 处 理 的 通用 神经 网 络 就 是 所 谓 的 时 延 神经 网 络 (time 
delay neural network, TDNN), ， 由 Lang and Hinton(1988) 和 Waibel et al.(1989) 第 一 次 描述 。TDNN 
是 一 个 多 层 前 馈 网 络 ， 其 隐藏 层 神经 元 和 输出 神经 元 都 是 活 时 间 复 制 。 它 被 设计 用 于 显 式 地 
捕获 在 利用 声 谱 图 (spectrogram) 识 别 一 个 孤立 单词 (音素 ) 的 过 程 中 遇 到 的 时 间 对 称 性 的 概念 。 
一 个 声 谱 图 是 一 张 两 维 的 图 像 ， 其 纵 轴 表 示 频 率 ， 横 轴 表 示 时 间 。 图 像 的 强度 ( 灰 度 ) 与 信号 
的 能 量 相 对 应 (Rabiner and Schafer, 1978). FA 13-7 显示 TDNN 一 个 隐藏 层 形 式 (Lang and 
Hinton,1988) 。 输 入 层 包括 192(16 x 12) 个 用 于 对 声 谱 进行 编码 的 感知 节点 。 隐 藏 层 包含 8 个 
隐藏 神经 元 的 10 次 复制 ; 而 输出 层 包 含 4 个 输出 神经 元 的 6 次 复制 。 一 个 隐藏 神经 元 的 不 
同 复 制 应 用 相同 突 触 权 值 集合 到 很 窗 的 (三 倍 于 时 间 瞩 长 ) 声 谱 窗 口 之 中 ; 相似 地 ， 输 出 神经 
元 的 不 同 复制 应 用 相同 突 触 权 值 集合 到 由 隐藏 层 计算 出 的 伪 声 谱 图 的 很 窄 的 (5 个 时 间 步 长 ) 
窗口 之 中 。 图 13-7b 对 图 13-7a 的 复制 神经 网 络 提 供 时 延 解释 ， 因 此 称 为 “时 延 神经 网 络 ”。 
这 个 网 络 共 有 544 个 突 触 权 值 。Lang and Hinton(1988) 使 用 TONN 对 四 个 孤立 的 词 : 
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4 个 输出 单元 ， 


r=- 每 个 和 所 有 隐 
输出 单元 藏 单元 连接 


时 间 延 迟 
1,2,3,4,5 





每 个 和 所 有 输 


14 8 个 隐藏 单元 ， 
@ 。 入 节点 连接 


时 间 延 迟 
1,2,3. 





输入 单元 
光谱 格 的 16 输 入 节点 
时 间 切 片 


一 一 一 -一 


a) b) 
图 13-7 
a) 一 个 隐藏 神经 元 和 输出 神经 元 沿 时 间 复 制 的 网 络 
b) 时 延 神经 网 络 (TDNN) 表 示 ( 经 允许 ， 搞 自 K.J. Lang and G.E. Hinton, 1988) 
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“bee”, “dee”, “ee” ，vee "进行 识别 ， 这 要 求 在 图 13-7 中 使 用 四 个 输出 神经 元 。 通 过 使 用 不 同 
于 训练 数据 的 测试 数据 获得 了 93% 的 识别 率 。 在 一 个 更 精心 研究 的 报告 中 Waibel et al. 
(1989) 使 用 了 两 个 隐藏 层 ， 用 于 识别 三 个 孤立 的 单词 ，“bee”,“dee” 和 “gee”。 用 三 个 人 的 发 
音 作为 测试 集 ， 在 性 能 测试 中 ， 取 得 了 平均 98.5% 的 识别 率 。 

TONN 对 于 包含 一 串 固定 维 数 特征 向 量 ( 比 如 音素 ) 的 时 序 模式 的 识别 具有 最 好 的 效果 。 
但 是 ， 在 实际 的 语音 识别 器 中 ， 假 设 讲话 的 信号 能 被 正确 地 切 分 为 它 的 组 成 音素 是 不 切合 实 
际 的 。 相 反 ， 对 语音 模式 的 超 切 分 (supersegmented) 时 序 结构 恰当 地 建立 模型 是 重要 的 。 特 
别 ， 语 音 识 别 器 不 得 不 去 处 理 对 于 持续 时 间 变 化 很 大 的 词 和 句子 片段 以 及 非 线性 时 序 结构 。 
要 对 语音 信号 的 这 些 自然 特征 进行 建 模 ， 语 音 识 别 领域 的 传统 方法 是 使 用 一 个 状态 转换 结 
构 ， 就 像 隐 式 Markov 模型 一 样 (Rabiner 1989; Jelinek ,1997)。 基 本 上 ， 隐 式 Markov 模型 (hidden 
Markov model，HMM) 表 示 由 固有 马尔 可 夫 链 产生 的 随机 进程 ， 以 及 与 隐 含 状态 相 联系 的 一 组 观 
察 分 布 ， 参见 第 11 章 注 释 [11]。 在 文献 中 已 有 很 多 混合 型 TDNN 和 HMM RHR, 


13.4 集中 式 时 沾 前 馈 网 络 


静态 神经 网 络 ( 如 多 层 感知 器 ， 径 向 基 函 数 网 络 ) 的 原型 应 用 是 结构 化 模式 识别 。 相 反 ， 
时 序 模式 识别 要 求 对 随时 间 演 化 的 模式 进行 处 理 ， 对 特定 时 刻 的 响应 不 仅 依赖 于 输入 的 当前 
值 ， 还 依赖 于 以 前 的 值 。 图 13-8 显示 建立 在 静态 神经 网 络 上 的 非 线性 滤波 器 的 框图 (Mozer， 
1994) 。 网 络 是 通过 短期 记忆 来 模拟 的 。 特 别 地 ， 例 如 给 定 由 输入 信和 号 的 当前 值 x(n) 以 及 它 
的 前 p 个 值 z(n =- 1)，…x(a -PP) 组 成 的 输入 ， 它 们 存储 在 p 阶 延 迟 线 记忆 上 ， 调 整 神经 网 
络 的 自由 参数 使 得 网 络 输出 y(n) 与 期 望 响应 d(m) 的 平方 误差 达到 最 小 。 

图 13-8 所 示 的 结构 可 以 在 单个 神经 元 级 或 者 一 个 神经 元 网 络 级 来 实现 。 这 两 情况 分 别 
在 图 13-9 和 图 13- 10 给 出 。 为 了 简化 表达 ， 我 们 用 了 抽 头 延迟 线 记 忆 作 为 图 13-9 和 图 13- 
10 中 的 短期 记忆 结构 。 很 明显 ， 这 两 个 图 都 可 以 通过 使 用 传递 函数 G(z) 单 元 代替 :-! 来 进 
行 推广 。 











d(n) 


图 13-8 ”建立 在 静态 神经 网 络 上 的 非 线性 滤波 器 


图 13-9 中 的 时 序 处 理 单元 是 由 其 自己 的 抽 头 连接 到 神经 元 突 触 的 抽 头 延迟 线 记忆 组 成 
的 。 抽 头 延 迟 线 记忆 捕获 包含 在 输入 信号 中 的 时 序 信息 并 且 神 经 元 将 那个 信息 藤 和 人 到 它们 自 
己 的 突 触 权 值 中 。 图 13-9 中 的 处 理 单元 称 为 集中 式 神 经 滤波 器 (focused neuronal filter), 集中 
的 意义 在 于 整个 记忆 结构 都 位 于 单元 输入 的 末端 。 滤 波 器 的 输出 ， 对 输入 x(n) 及 其 前 面 的 
值 x(z 一 1),…,x(n 一 p) 的 响应 ， 由 
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x(n - p) OY 突 触 权 值 
图 13-9 集中 式 神 经 元 滤波 器 





图 13-10 集中 式 时 滞 前 馈 神 经 网 络 (TLFN);， 为 表示 方便 省 略 了 偏 置 层 


y(n) = o( Sym (x(n = D + 6) (13.11) 

Bie, KP, o OERA | 的 激活 函数 ，wi (1) ERMA, b 是 偏 置 。 注 意 激活 函数 的 
输入 包含 偏 置 加 上 输入 样本 和 神经 元 的 突 触 权 值 的 卷 积 。 

再 看 图 13- 10， 它 是 集中 式 时 滞 前 馈 网 络 (focused time lagged feedforward network, TLFN )， 

这 里 我 们 有 一 个 更 强大 的 非 线 性 滤波 器 ,包含 有 p 阶 的 抽 头 延迟 线 记 忆 和 多 层 感 知 器 。 要 

[ea] 训练 这 个 滤波 器 ， 我 们 可 以 使 用 第 4 章 描 述 的 标准 的 反 向 传播 算法 。 在 时 刻 nx， 应 用 于 网 络 

输入 层 的 “时 序 模式 ” 即 为 信号 向 量 
a(n) = [x(n),x(n - 1), ,æ(n - p)]” 
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这 可 以 看 作对 非 线 性 滤波 器 在 时 刻 n 的 状态 描述 。 一 个 时 段 包 括 一 系列 状态 (模式 )， 其 数 
量 由 记忆 阶 p 及 训练 样本 的 数量 NN 决定 。 
如 图 13-10 所 示 ， 假 设 多 层 感知 器 有 一 个 隐藏 层 ， 非 线性 滤波 器 的 输出 由 


y(n) = 2 wy; (n) = 2 of 3) u,(Dx(n~ 1) +b) b, (13.12) 
给 出 ， 其 中 集中 式 TLFN 的 输出 神色 TABLE REIN 输出 神经 元 的 突 触 权 值 由 集合 | wj 17, 
表示 ，m 是 隐藏 层 的 大 小 ，. 为 网 络 的 偏 置 。 
13.5 计算 机 实验 


在 这 个 计算 机 实验 里 ， 我 们 对 图 13-10 中 TLFN 的 使 用 进行 研究 ， 模 拟 一 个 困难 的 频率 
调制 信号 的 时 间 序 列 : 
x(n) = sin(n + sin(n’?)),n = 0,1,2,… 
网 络 用 作 单 步 预 测 器 ， 对 于 由 集合 {x(n - 1) ARMA, x(n + 1) 代表 期 望 的 响应 


络 的 组 成 及 其 参数 如 下 : 

抽 头 延 时 线 记 忆 的 阶 p: 20 

隐藏 层 m: 10 个 神经 元 

隐藏 层 神经 元 的 激活 函数 : logistic 函数 

输出 层 : 1 个 神经 元 

输出 神经 元 的 激活 函数 ， 线性 函数 

学 习 率 参数 (两 层 ) : 0.01 

动量 常数 : 无 
用 于 训练 网 络 的 数据 集 有 500 个 随机 模式 ， 每 个 模式 含有 从 时 间 序 列 |x(n)| 中 选择 出 来 的 
20 个 时 序 样本 。 


图 13- 11a 显示 由 网 络 对 测试 数据 (以 前 未 见 过 ) 执 行 的 单 步 预测 结果 及 实际 波形 的 玲 加 。 
图 13-11b 显示 预测 的 误差 波形 ， 这 个 误差 定义 为 实际 波形 和 预测 波形 之 间 的 差别 。 预 测 误 
差 的 均 方 值 为 1.2 x 10°, 
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b) 


图 13-11 单 步 预 测 计算 机 实验 结果 
a) 实 际 ( 实 线 ) 波 形 和 预测 (虚线 ) 波 形 的 症 加 b) 预 测 误差 的 波形 


13.6 通用 短视 映射 定理 


图 13-9 中 的 非 线性 滤波 器 可 以 推广 为 图 13-12 所 示 的 滤波 器 。 这 个 一 般 的 动态 结构 包 
含 两 个 功能 模块 。 标 号 为 | 方志 ,的 模块 表示 时 域 的 多 重 卷 积 ， 那 就 是 说 一 个 并 行 运行 的 线性 
滤波 器 组 。 广 是 从 一 个 较 大 的 实 值 核 集合 中 抽取 出 来 的 ， 每 一 个 都 代表 着 一 个 线性 滤波 器 
的 脉冲 响应 。 块 标号 为 N 的 模块 表示 静态 的 ( 即 无 记忆 的 ) 非 线性 前 馈 网 络 , 如 一 个 普通 的 
多 层 感知 器 。 图 13-12 中 的 结构 是 一 个 通 
用 动态 映射 器 (universal dynamic mapper)。 
在 Sandberg and Xu(1997a) 中 证 明 对 于 任何 
平移 不 变 的 短视 映射 (myopic map), E 
度 的 条 件 下 利用 图 13-12 描绘 的 结构 能 够 
以 任意 精度 一 致 通 近 。 要 求 一 个 映射 为 短 
视 的 等 价 于 “一 致 训 减 记忆 ”; 这 里 假设 映 





射 是 因果 的 (causal)， 这 意味 着 一 个 只 有 在 卷 积 核 库 BAHA 
n=0 时 应 用 输入 信号 时 ， 才 在 时 刻 m>0 S #mA 


由 映射 产生 输出 信号 。 对 "平移 不 变 ”"， 我 
们 是 指 如 果 y(n) 是 映射 对 输入 x(n) 产 生 
的 输出 ， 那 么 对 于 平移 输入 x(n - n), 映射 的 输出 就 是 y(n - m)， 这 里 时 间 位 移 n 是 一 
个 整数 。 在 Sandberg and Xu(1997b) 中 ， 他 们 进一步 证 明 对 单 变量 的 、 平 移 不 变 的 、 因 果 的 和 
一 致 衰减 的 记忆 上 映射， 存在 一 个 Gamma 记忆 和 静态 神经 网 络 ， 它 们 的 组 合 能 够 以 任意 精度 
一 致 逼近 该 映射 。 

我 们 现在 可 以 正式 地 将 通用 短视 映射 定理 中 描述 如 下 ; 

任何 平移 不 变 的 短视 动态 映射 可 以 由 含有 两 个 功能 块 的 结构 任意 地 一 致 东 8 近 : 一 组 线性 
滤波 器 馈 给 一 个 静态 神经 网 络 。 


这 个 定理 包含 的 结构 可 以 采用 集中 式 TLN 的 形式 。 注 意 当 输入 和 输出 信号 是 有 限 数目 
变量 的 函数 时 (如 图 像 处 理 )， 定 理 依然 成 立 。 

通用 短视 定理 有 着 很 深 的 实际 意义 。 它 不 仅 对 NETtalk 及 可 能 的 Gamma 记忆 扩展 提供 数 
学 基础 ， 而 且 对 更 复杂 的 动态 非 线性 处 理 模 型 的 设计 建立 框架 。 在 图 13-12 结构 前 端的 多 个 
卷 积 可 以 使 用 线性 滤波 器 (通过 有 限 冲 激 响应 (FIR) 或 者 无 限 冲 激 响 应 (IER) ) 来 实现 。 对 于 静 
态 神经 网 络 ， 它 可 以 用 多 层 感知 器 、 径 向 基 郴 数 网 络 或 者 支持 向 量 机 由 第 4、5 和 6 章 介绍 


图 13-12 通用 短视 映射 定理 的 一 般 结构 





LEM ah BE IB OG IP PAE 473 





的 训练 算法 来 实现 。 换 名 话说， 在 那 几 章 中 给 出 的 关于 监督 学 习 的 资料 基础 之 上 ， 我 们 可 以 
很 自然 地 建立 非 线性 滤波 器 或 非 线性 动态 过 程 的 模型 。 最 重要 的 是 ， 假 设 线 性 滤波 器 本 身 是 
稳定 的 ， 图 13-12 中 的 结构 是 图 有 稳定 的 。 因 此 ， 对 于 怎样 处 理 短期 记忆 和 无 记忆 非 线性 
性 ， 我 们 对 它们 的 作用 有 清晰 的 分 工 。 


13.7 神经 元 的 时 空 模型 


如 图 13-9 所 示 的 集中 式 神 经 滤波 器 在 这 里 有 一 个 很 有 意思 的 解释 。 单 元 延迟 元 素 与 相 
应 的 突 触 权 值 之 间 的 组 合 可 以 看 作 是 p 阶 的 有 限 冲 激 响 应 (FIR) 滤 波 器 ， 如 图 13-13a 所 示 。 
FIR 滤波 器 在 数字 信和 号 处 理 中 为 一 个 基本 的 构件 (Oppenheim and Schafer, 1989; Haykin and Van 
Veen,1998)。 相 应 地 ， 图 13-9 中 的 集中 式 滤 波 器 实际 上 是 一 个 如 图 13-13b 所 示 的 非 线性 滤 
A WE 13-14 所 示 ， 在 此 表示 基础 上 通过 使 用 数量 为 m 的 多 个 输入 我 们 可 以 扩充 神经 
元 的 空间 处 理 能 力 。 图 13-14 是 多 输入 神经 元 滤波 器 的 时 空 模型 。 


x(n) xi(n — 1) x(n ~ 2) x(n-p+1) 


w;(0) 


x(n — p) 












P 
s(n) = 5 wl k) x(n ~ k) 
k=0 








yín) 


激活 函数 


b) 
图 13-13 
a) 有 限 冲 击 响应 (FIR) 滤 波 器 b) 神 经 元 滤波 器 的 非 线性 FIR 滤波 器 解释 


输出 
y(n) [eas] 








图 13-14 多 个 输入 神经 元 滤波 器 
然而 另 一 种 描述 图 13-14 的 模型 的 方式 是 将 其 看 作 一 个 分 布 式 神 经 元 滤波 器 ， 这 是 在 过 
滤 行 动 在 空间 的 不 同 点 上 是 分 布 的 意义 之 下 。 模 型 的 时 空 特征 描述 如 下 : 
。 神经 元 有 m 个 “ 主 ” 突 触 ， 每 个 主 突 触 包含 一 个 以 p 阶 FIR 形式 实现 的 线性 离散 时 
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间 滤 波 器 ;， 主 突 触 计 算 信号 处 理 的 空间 维 。 
。 每 个 主 突 触 有 (p + 1) 个 “辅助 ”* 突 触 与 各 自 的 输入 和 FIR 滤波 器 的 记忆 抽 头 相连 接 ， 
它们 计算 信号 处 理 的 时 间 维 。 
在 图 13-14 中 的 这 个 神经 元 滤波 器 的 突 触 结构 是 树 形 的 ， 如 图 13-15 描述 。 整 个 突 触 权 
值 的 数目 为 mo(p+1)。 


至 记忆 1 的 抽 
A (包括 输入 ) 


至 记忆 2 的 抽 
头 (包括 输入 ) 


至 记忆 mth 
头 (包括 输入 ) 





辅助 突 触 


图 13-15 ”多 个 输入 神经 元 滤波 器 突 触 结构 的 树 形 描述 
在 数学 术语 中 ， 我 们 可 以 将 神经 元 滤波 器 执行 的 时 空 处 理 表 达 为 


mo 


y(n) = ¢( >} Siw, l)x: Cn - 1) + b) (13.13) 


其 中 wo, (DERF i 个 主 突 触 的 第 1 个 辅助 突 触 的 权 值 ，x (mn) 是 在 时 刻 n 应 用 于 第 i 个 主 
突 触 的 输入 值 ， 避 为 应 用 于 该 神经 元 的 偏 置 。 神 经 元 的 诱导 局 部 域 为 (mn)， 也 就 是 在 式 
(13.13) 中 的 激活 函数 g() 的 变量 ， 它 可 以 看 作对 如 下 连续 时 间 公 式 的 离散 时 间 “ 近 似 ” 


™ 


v(t) = DI ha -入 )dA + b; (13.14) 


在 式 (13.14) 中 积分 是 连续 时 间 输 入 信号 x(:) 和 表示 突 触 i 的 线性 连续 时 间 滤 波 器 的 冲击 响 
应 h(i) 的 郑 积 。 式 (13.14) 是 一 个 神经 元 诱导 局 部 域 时 空 行为 的 最 通常 描述 方法 。 


加 性 模型 


式 (13.14) 给 出 另外 一 种 常用 的 神经 元 时 空 模型 的 基础 。 特 别 地 ， 通 过 使 用 换算 参数 决 
定 一 个 “典型 的 ” 突 触 冲击 响应 的 符号 和 强度 ， 我 们 简化 神经 元 的 时 空 模型 ， 在 此 情况 下 有 
hi(t) = w; + h(t) 对 所 有 的 i (13.15) 
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其 中 有 h(i) 将 一 个 典型 的 后 突 触电 位 的 时 间 特 征 模 型 化 ， 并 且 wi 是 一 个 标量 ， 用 于 确定 神经 
元 /和 输入 i 之 间 连 接 的 符号 (兴奋 的 或 换 制 的 ) 和 总 强度 (Shamma,1989 )。 这 样 在 式 (13.14) 
中 代入 式 (13.15)， 并 且 通 过 交换 积分 与 求 和 次 序 ， 我 们 得 到 


t "o mo 
v(t) = | KOD roa -DA b = he* (Bowlt)) +b, (13.16) 


其 中 星 号 * 定义 卷 积 。 通 用 冲击 响应 (1) 的 形式 依赖 于 要 求 的 细节 数量 。 一 个 常见 选择 为 
指数 函数 ， 定 义 为 


h,(t) = Fep- =] (13.17) 


RF o 是 一 个 时 间 常 量 ， 它 是 神经 元 7 的 一 个 特征 参数 。 式 (13.17) 中 的 时 间 函 数 h(i) 被 看 
作 是 简单 电路 的 冲击 响应 ,该 电路 由 电阻 RR 和 电容 C; 组 成 ， 从 一 个 电源 得 到 馈 给 ; BD 
t = RC, (13.18) 

因此 ， 我 们 使 用 式 (13.16) 和 式 (13.17) 构 造 图 13.16 中 模型 的 公式 。 使 用 物理 术语 ， 突 
触 权 值 w, , wa ，… ,zim 为 电导 率 ( 即 电阻 的 倒数 ) ME AKAA (t), wC), dm (E) 
电位 ( 即 电 压 ) 表 示 。 求 和 连接 由 低 输入 电阻 、 单 位 电流 增益 和 高 输出 电阻 来 表征 ; 即 它 就 是 
作为 对 输入 电流 进行 求 和 的 节点 。 因 此 馈 人 电阻 - 电容 (Resistance-Capacitance, RC ) 电 路 的 总 
电流 为 ; 

2 wx; (t) +i; 
其 中 第 一 个 ( 求 和 ) 项 是 由 于 刺激 和 (6), 0 (2) 0 ny (7) 分 别 作 用 于 突 触 权 值 (电导 率 ) wi， 
wa，"…, wim ， 而 第 二 个 项 是 表示 外 部 作用 偏 置 b; 的 电源 1;。 

在 神经 网 络 文献 中 ， 图 13- 16 中 的 神经 元 模型 通常 称 为 加 性 模型 (additive model) 。 这 个 
模型 可 以 视 为 生物 树 突 神 经 元 的 分 布 式 传输 线 模型 的 块 状 电路 近似 (Ral, 1989 )。 由 于 生物 
突 触 本 身 就 是 一 个 低 通 滤波 器 的 良好 近似 , 这 也 可 以 说 明 图 13-16 中 的 RC 电路 低 通 特性 的 
合理 性 。 


w, 
1 
J wx1(D 





x(t) o 


x,(1) o 





Wty) 


jii 





E wx;(t) 
23(0 o - 一 


X,(2) © 


Won xD 了 


图 13-16 神经 元 的 加 性 模型 
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13.8 SARNE AN 


通用 短视 映射 算法 提供 集中 式 TLFN 的 数学 基础 ， 但 它 仅 限于 平移 不 变 映 射 。 这 个 局 限 
性 暗示 集中 式 TLFN 只 适用 于 平稳 (即时 间 不 变 ) 的 环境 。 我 们 使 用 分 布 式 时 涪 ( distributed time 
lagged) 前 馈 网 络 ， 可 以 克服 这 个 局 限 ， 分 布 式 的 意义 在 于 隐 舍 的 时 间 影 响 分 布 于 整个 网 络 。 
这 样 一 个 网 络 的 结构 基于 图 13- 14 的 多 个 输入 神经 元 滤波 器 作为 神经 元 的 时 空 模型 。 

S 邮 ( 门 表示 与 FIR 滤波 器 第 1 个 抽 头 相连 接 的 突 触 权 值 ， 该 FIR 滤波 器 模拟 连接 神经 
元 i 的 输出 到 神经 元 j 的 突 触 。 下 标 1 从 0 到 p， HF p 是 FIR 的 阶 。 依 据 这 个 模型 ， 出 现 
在 第 j 个 神经 元 的 第 i 个 突 触 输 出 的 信号 s;(n) 由 孝 积 和 


s(n) = POETER) (13.19) 


给 出 ， 其 中 ”表示 离散 时 间 。 我 们 可 以 对 于 突 触 ; 分 别 引入 下 列 状态 向 量 和 权 值 向 量 的 定 
义 ， 以 矩阵 的 形式 重 写 式 (13,19) 如 下 : 


x(n) = [x(n),r (nol, x(n p)]? (13.20) 
wy = [wi(0), w), wi(p)]” (13.21) 

这 样 我 们 可 以 把 标量 信号 s(n MENE w;(n) 和 和 x(n) 的 内 积 ， 即 
s(n) = Wixi(n) (13,22) 


对 于 输入 向 量 x(n)，i=1,2,…, mo, 式 (13.22) 定 义 图 13-14 模型 中 的 神经 元 j 的 第 i 个 突 
触 的 输出 响应 % (n)。 向 量 x;(n) 被 称 为 一 种 “状态 ”， 因 为 它 表示 在 时 刻 n 第 i 个 突 触 的 条 
件 。 因 此 ， 对 这 个 模型 描绘 的 mo 个 连接 的 全 部 贡献 求 和 ( 即 对 下 标 i 求 和 )， 我 们 可 以 得 到 
神经 元 j 的 输出 y(n)， 表 示 为 
y(n) = PDs) +b, = = Swain) + (13.23) 
y(n) = gly (n)) (13.24) 
其 中 0, (n) ERAT j 的 诱导 局 部 域 ，b, 是 外 部 作用 的 偏 置 ，p( : ) 是 神经 元 的 非 线性 激活 函 
数 。 假 设 网 络 中 所 有 的 神经 元 都 采用 相同 的 非 线性 的 形式 。 注 意 如 果 权 值 向 量 w 和 状态 向 
Bx, (nn) 分 别 由 相应 的 标量 w; 和 x 代替 ， 并 且 内 积 由 普通 的 乘法 运算 代替 ， 那 么 式 (13.23) 
和 式 (13.24) 中 描述 的 动态 模型 就 会 化 简 为 第 4 章 中 描述 的 普通 多 层 感 知 器 模型 。 


13.9 时 序 反 向 传播 算法 


为 了 训练 分 布 式 TLFN 网 络 ， 我 们 需要 一 个 监督 学 习 算法 ， 其 中 比较 输出 层 每 个 神经 元 
的 每 个 时 刻 的 实际 响应 与 相应 的 期 望 (目标 ) 响 应 。 假 设 神经 元 j 位 于 输出 层 ， 其 实际 响应 是 
Yj(n)， 而 这 个 神经 元 的 期 望 响应 为 dj(n)， 它们 都 在 时 刻 n 测量 。 我 们 可 以 定义 该 网 络 的 
平方 误差 和 的 瞬时 值 


Elna) = > ; ae (n) (13.25) 


AEP tp 7 仅 指 输出 层 的 神经 元 ， fon) REIS, 定义 为 
e(n) = d(n) ~ y(n) (13.26) 
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对 所 有 时 间 计 算 %(n) 的 值 然 后 求 和 ， 


Ea = >) Eln) (13.27) [652] 


目标 是 最 小 化 这 样 定义 的 代价 函数 。 为 了 计算 最 优 权 值 向 量 估计 值 ， 记 住 达到 这 个 目标 的 算 
法 是 基于 最 速 下 降 方法 的 逼近 。 
处 理 这 个 问题 的 一 个 明显 方法 是 将 式 (13.27) 中 的 代价 函数 对 w; 进行 微分 ， 得 到 
a = 2 Kn) (13.28) 


为 了 利用 瞬时 梯度 方法 进一步 处 理 ， Ree ama. 这 里 的 策略 首先 是 通过 将 其 扩展 
成 等 价 的 但 更 大 的 “上 静态” 网络， 消除 所 有 的 延迟 ， 接 着 应 用 标准 反 向 传播 算法 计算 瞬时 误差 
梯度 。 不 幸 的 是 ， 这 个 方法 受到 下 面 几 个 负面 性 质 所 阻碍 : 

。 状态 的 前 向 传播 与 计算 瞬时 误差 梯度 所 需 项 的 反 向 传播 之 间 失 去 对 称 意义 。 

。 传播 误差 项 缺少 一 个 好 的 递归 公式 。 

。 需要 全 局 纪录 以 跟踪 哪些 静态 权 值 ， 它 们 实际 上 在 展开 分 布 式 TLFN 获得 等 价 的 网 

络 中 是 相同 的 。 

尽管 用 瞬时 梯度 估计 是 发 展 反 向 传播 算法 的 时 间 形 式 的 明显 方法 ， 从 实用 的 观点 来 看 这 
种 方法 不 理想 。 

为 克服 上 述 瞬 时 梯度 方法 的 问题 ， 我 们 提 下 述 处 理 (Wan,1990,1994 )。 首 先 ， 认 识 到 把 
总 误差 梯度 展开 成 如 式 (13.28) 所 示 的 瞬时 误差 梯度 的 和 并 不 是 惟一 的 。 特 别 ， 可 以 考虑 另 
I EE, ees 表示 为 
Day ie (13.29) 
其 中 时 间 下 标 ” 仅 作 用 于 w (2). 人 n 由 于 神经 
元 7 的 诱导 局 部 域 v 的 一 个 变化 而 引起 的 代价 函数 的 一 个 变化 。 然 而 重要 的 是 注意 

9 Bi av(n) a(n) 
dv,(n) OW, IW; 
只 有 当 对 所 有 的 二 求 和 ， 式 (13.28) 和 (13.29) 中 的 等 式 才 成 立 。 

给 定式 (13.29) 的 展开 ， 我 们 现在 可 以 使 用 权 值 空间 的 梯度 下 降 的 思想 。 特 别 ， 假 设 使 
用 由 








E otal 
w,(n +1) =w;(n)- AOLA (13.30) 


表示 的 递归 形式 的 更 新 抽 头 - 权 值 向 量 w;(n)， 其 中 是 学 习 率 参数 。 从 式 (13.23) 的 定义 


看 ， 我 们 可 发 现任 何 神经 元 ;j， 其 诱导 局 部 域 v,(n) 对 权 值 向 量 wi (nm) 的 偏 导 数 由 


了 ae = x,(n) (13.31) 


给 定 ， 其 中 x,(n) 是 应 用 于 神经 元 j 突 触 i 的 输入 向 量 。 此 外 ， 可 以 定义 神经 元 j 的 局 部 梯 
度 为 





até 
rotal (13.32) 


S =- ag Cn) 
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因此 ， 我 们 可 以 用 一 个 熟悉 的 形式 来 重 写 式 (13.30) : 
w,(n +1) = win) +; (n): (n) (13.33) 
正如 第 4 章 中 的 标准 反 向 转播 算法 所 描述 的 那样 ， 局 部 梯度 的 显 式 形式 依赖 于 神经 元 j 位 于 
输出 层 还 是 隐藏 层 。 这 两 种 情况 分 别 在 下 面 讨论 。 
情形 1 神经 元 7 位 于 输出 层 
对 于 输出 层 而 言 ， 我 们 有 
a(n) = 2 _ HE = on)y (yln)) (13.34) 
其 中 e(n) ERAN j 在 输出 处 被 测量 的 信号 误差 ， 而 g ( . ) 是 激活 函数 o( ) 对 其 变量 的 导数 。 
情形 2 ”神经 元 7 是 隐藏 层 神经 元 
当 神 经 元 7 位 于 隐藏 层 时 ， 我 们 定义 % 为 由 神经 元 j 以 前 向 方式 馈 给 其 输入 的 神经 元 集 
Bo Oo (nn) 表示 属 于 集合 4 的 神经 元 > 的 诱导 局 部 域 。 我 们 可 以 写成 
9 Bion Ibm Iv, Ck 
ò (n) =- Jy (n) -DDU (13.35) 
其 中 我 们 已 经 使 用 下 标 k KRE n 的 位 置 以 示 特 别 注意 之 处 。 在 式 (13.35) 里 (用 下 标 + 代替 
站 使 用 式 (13.32) 中 的 定义 ， 可 以 得 到 


az (k) 9v,(k) 9y,(n) 
6,(n) = > 8.) on) = > BC) Fy tn) Buta) (13.36) 
其 中 y(n) 是 神经 元 j 的 输出 。 我 们 知道 偏 导数 9y,(n)/3w,(n) 等 于 gy (wv(n))， 包括 位 于 集 


合 A 之 外 的 神经 元 j 这 一 点 亦 成 立 。 所 以 可 以 将 这 一 项 提 到 双重 求 和 式 的 外 面 ， 重 写 式 
(13.36) 为 














， 9v,(k) 
ò (n) = g 5) 2 dy 6, (k) Iy; (n) (13.37) 


像 以 前 定义 的 那样 ，w (=”) 表 示 由 神经 元 /的 输出 馈 给 的 神经 元 r 的 诱导 局 部 域 。 因 此 ， 为 
使 式 (13.19) 和 (13.23) 的 含义 适 于 目前 的 情形 ， 可 以 将 v._( 上 ) 表 示 成 





ZORDI S u, Dyn -0 (13.38) 
在 式 (13.38) 中 已 经 包括 用 于 神经 元 r 的 仿 置 六， 相当 于 j = 0 时 的 项 ， 定 义 为 
200(7) = b, 和 yo( 一 1) = 1 对 所 有 的 1 和 nn (13.39) 


指标 p 定义 式 (13.38) 内 部 和 的 上 限 ， 它 是 神经 元 >， 以 及 当前 讨论 的 层 中 的 所 有 其 他 神经 
元 的 每 个 突 触 滤波 器 的 阶 。 指 标 mo 定义 在 式 (13.38) 中 外 部 和 的 上 限 ， 是 属于 神经 元 > 的 所 
有 主 突 触 的 数目 。 认 识 关 于 | 的 卷 积 和 是 可 交换 的 。 我 们 可 重 写 式 (13.38) 为 等 价 的 形式 





vk) = (Du 人 nm 站 (13.40) 
上 式 对 y 进行 求 导 ， 得 到 
av,(k) wr(k - 1), nxken+p 
Iyn) = l 0, 其 他 (13.41) 


按照 式 (13.41) ， 式 (13.37) 中 的 偏 导数 aw (k)/Iy,(n), HF n EGE nckhenst p Za 
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值 ， 其 值 是 0。 对 隐藏 层 中 的 神经 元 7/ 来 说 ， 在 式 (13.37) 中 使 用 式 (13.41) ， 得 到 
3,(n) = Go(n)) DI a, wyk D) = (y(n) DH 3,(n + Day n) 
r€CAk = n rEÑI =0 


(13.42) 
定义 一 个 新 的 (p+ 1) x 1 4 
A,(n) = [8 (n), Cn +1),,6(n + p)]" (13.43) 
早 些 时 候 我 们 定义 了 式 (13.21) 中 的 权 值 向 量 w 。 通 过 使 用 矩阵 记号 可 以 把 式 (13.42) 重 写成 
紧凑 形式 
d(n) = g (vn)) 2 Mn)w, (13.44) 


其 中 A? (n)w; 是 向 量 A,(n) 和 w, 的 内 积 ， 这 两 个 向 量 都 是 (p + 1) 维 的 。 式 (13.44) 完 成 在 隐 
藏 层 中 对 于 神经 元 7] 的 5,(n) 的 计算 。 

我 们 现在 可 以 总 结 权 值 更 新 方程 为 下 述 时 序 反 向 传播 (temporal back propagation) 关系 
(Wan, 1990, 1994) : 


w;(n + 1) = wln) + 78;(n)x;(n) (13.45) 
e(n)g (v(n)), J 为 输出 层 
IEn) = ]g(w(n)) D A7(n)w;， j ARRE (13.46) 
read 


它 可 以 推广 为 任意 数量 的 隐藏 层 单元 。 立 即 可 以 看 出 这 些 关 系 式 表 示 标 准 的 误差 反 向 传播 算 
法 的 向 量 推广 。 如 果 我 们 用 输入 向 量 x,(n)、 权 值 向 量 wy 以 及 局 部 梯度 向 量 A, 的 标量 形式 
来 取代 它们 ， 那 就 变 成 了 如 第 4 章 导出 的 标准 反 向 传播 算法 。 

为 了 计算 位 于 隐藏 层 的 神经 元 j 的 3,(n)， 根 据 式 (13.44)， 我 们 通过 那些 兴奋 是 从 神经 
Tes j 导出 的 突 触 滤 波 器 从 后 一 层 反 向 传播 各 个 8。 这 个 反 向 传播 机 制 如 图 13-17 所 示 。 局 部 
梯度 8 (z) 不 是 简单 的 由 加 权 和 得 来 ， 而 是 通过 各 主 突 触 反 向 滤波 形成 的 。 特 别 地 ， 对 新 的 
输入 集合 和 期 望 响 应 向 量 ， 前 向 滤波 器 递增 一 个 时 间 步 ， 反 向 滤波 器 也 一 样 。 


g A(n) 





13-17 通过 分 布 式 TLFN 的 局 部 梯度 的 反 向 传播 
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我 们 现在 能 够 看 出 这 里 使 用 时 序 反 向 传播 算法 的 一 些 实际 的 好 处 : 
1. 状态 的 前 向 传播 和 误差 项 的 反 向 传播 之 间 保 持 对 称 性 ， 因 而 某 种 意义 上 并 行 分 布 式 


处 理 是 可 以 维持 的 。 
2. EAE R RE Oa DU ETT A 8 时 只 用 一 次 。 在 瞬时 梯度 方法 中 遇 到 的 项 不 存 
在 元 余 。 


在 推导 式 (13.45) 和 式 (13.46) 描 述 的 时 序 反 向 传播 算法 时 ， 假 设 突 触 滤 波 嚣 权 值 对 所 
有 的 梯度 计算 都 是 固定 的 。 在 实际 适应 过 程 中 这 明显 不 是 一 个 合法 的 假设 。 相 应 地 ， 时 序 反 
向 传播 算法 和 使 用 瞬时 梯度 方法 所 得 的 时 序 形式 之 间 将 产生 性 能 上 的 差异 。 然 而 ， 这 些 差异 
只 是 一 个 次 要 的 属性 。 对 一 个 较 小 的 学 习 率 参数 n， 这 两 种 算法 中 的 学 习 特征 的 差异 在 实际 
应 用 中 是 可 以 忽略 的 。 


因果 性 约束 


细心 检查 式 (13.42) 可 以 发 现 5,(n) 的 计算 是 非 因果 性 的 ， 因 为 它 需 要 各 个 8 和 w 未 来 值 
的 知识 。 为 了 使 这 个 计算 为 因果 性 的 ， 首 先 注意 用 于 适应 调整 的 精确 时 间 参 照 是 无 关 紧 要 
的 。 并 且 ， 网 络 中 使 用 的 突 触 结构 都 是 FIR 滤波 器 。 因 此 ， 因 果 性 要 求 使 用 附加 的 缓冲 来 暂 
存 网 络 的 内 部 状态 。 这 样 接 下 来 我 们 要 求 所 有 权 值 的 改变 都 基于 误差 信号 的 当前 值 和 过 去 
值 。 由 此 可 以 立即 设置 输出 层 神经 元 7 的 误差 为 5(n)， 接 着 改变 那 一 层 的 突 触 滤波 器 权 值 。 
对 前 一 层 ( 即 从 输出 层 反 向 的 一 个 隐藏 层 ) ， 因 果 性 约束 上 暗示 这 一 层 神 经 元 j 的 局 部 梯度 





Sn-p)= pv(n-p)) 2 An p)w, (13.47) 
rEA 
的 计算 仅仅 依赖 于 向 量 A, 的 当前 值 和 过 去 值 ; 那 就 是 ， 
A:(n-p)=[3(z-p),3(n+LI-P)， 3(n)]7 (13.48) 


式 (13.47) 是 由 式 (13.46) 从 第 二 行 中 将 n Hn- p 代替 得 到 的 ， 其 中 p 是 每 个 突 触 FIR 滤波 
器 的 阶 。 像 以 前 指出 的 那样 ， 状 态 x; (n - p) 必 须 存储 起 来 使 得 我 们 可 以 计算 d (Cn - p)x 
(n ~p) 的 积 ， 这 是 为 了 改变 连接 最 后 一 个 隐藏 层 的 神经 元 ;和 它 前 一 层 的 神经 元 i 的 权 值 向 
量 。 对 一 个 含 多 个 隐藏 层 的 网 络 来 说 ， 通 过 将 时 间 平 移 两 倍 那么 长 ， 可 以 对 更 前 一 层 ( 即 输 
出 层 前 面 的 两 个 层 ) 继 续 这 里 描述 的 操作 。 操 作 以 这 种 方式 继续 直到 包括 网 络 的 所 有 计算 层 。 
我 们 可 以 提出 时 序 反 向 传播 算法 的 因果 形式 ， 如 表 13-1 中 的 小 结 。 
表 13-1 时 序 反 向 传播 算法 小 结 
1. 向 前 逐 层 传播 输入 信号 。 确 定 输出 层 神 经 元 / 的 误差 信号 s(n)， 这 从 期 望 响应 中 减 掉 实 际 输出 得 到 。 同 时 记录 网 
络 中 每 个 突 触 的 状态 向 量 。 


2. 对 输出 层 神经 元 j 计算 : 
a(n) = el(n)gi(n) 


Wiln +1) = wala) + Wm,(n)xi(n) 
其 中 xi;(n) 是 与 输出 层 神经 元 ;相连 的 隐藏 层 神经 元 的 突 触 i 的 状态 。 
3. 对 隐藏 层 中 的 神经 元 j， 计 算 
8)(n - Ip) = Gon p)) > An - pw, 
red 
wln +1) = wi(n) + (n = Ip)x;(n - Ip) 


其 中 p 是 每 个 突 触 FIR 滤波 器 的 阶 ， 同 时 指标 1 标识 所 讨论 的 隐藏 层 。 特 别 ， 对 有 多 个 隐藏 层 的 网 络 来 说 ，! = 1 
与 紧 舍 输出 层 的 第 一 个 隐藏 层 相 对 应 ，! = 2 与 紧 靠 输出 层 的 两 个 隐藏 层 相对 应 ， 依 次 类 推 。 
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尽管 这 个 算法 在 审美 观点 上 不 如 式 (13.45) 和 (13.46) 中 描述 的 非 因果 形式 好 ， 两 种 算法 
形式 的 基本 不 同 只 是 在 指标 上 的 一 些 改 变 轩 了 。 
总 而 言 之 ,我 们 可 以 得 到 下 列 结论 : 
© 各 个 8 是 通过 网 络 的 各 层 连续 反 向 传播 的 ， 并 且 不 增加 延迟 。 这 种 传播 强迫 8 的 内 
部 值 随 着 时 间 平 移 。 
。 为 了 时 间 平 移 正确 ， 状 态 ( 即 x;(n) 的 值 ) 向 量 被 保存 起 来 ,用 于 形成 修改 权 值 所 需 
要 的 恰当 乘积 项 。 换 句 话 说 ， 只 有 状态 向 量 是 需要 增加 存储 延迟 ， 而 执行 delta 的 反 
向 传播 是 不 需要 延迟 的 。 
。 各 个 8 的 反 向 传播 与 状态 的 前 向 传播 保持 对 称 。 
。 和 瞬时 梯度 方法 一 样 ， 计 算 的 阶 对 网 络 突 触 权 值 的 数目 是 线性 的 。 
分 布 式 TLEN 比 在 13.4 节 讨 论 的 集中 式 TLFN 更 复杂 。 此 外 ， 用 来 训练 分 布 式 TLFN 的 
时 序 反 向 传播 算法 计算 量 比 适宜 于 训练 集中 式 TLFN 的 标准 反 向 传播 算法 的 计算 量 更 大 。 在 
最 后 的 分 析 中 ， 使 用 这 两 种 方法 中 的 哪 一 个 ， 取 决 于 需要 解决 的 时 序 处 理 任务 的 环境 是 平稳 [68 
的 还 是 非 平 稳 的 。 


13.10 小 结 和 讨论 


对 时 序 处 理 的 需求 出 现在 包括 以 下 方面 的 大 量 应 用 中 : 

。 时 间 序 列 的 预测 和 建 模 (Box, Jenkins,1976; Haykin, 1996) 。 

。 噪声 消除 ， 其 中 需要 一 个 主 传感器 (提供 包含 噪音 的 期 望 信号 ) 以 及 一 个 参照 传感器 

(提供 噪音 信号 的 一 个 相关 形式 ) 来 消除 噪声 的 影响 (Widrow and Steams, 1985; Haykin, 
1996)。 

。 未 知 通信 信道 的 自 适应 均衡 (Proakis,1989; Haykin, 1996)。 

。 自 适应 控制 (Narendra and Annaswamy,1989)。- 

。 系统 辨识 (Liung 1987), 

当 研 究 的 系统 或 者 是 其 固有 的 物理 机 制 满足 线性 条 件 时 ， 我 们 已 经 有 一 些 很 完善 的 理论 
来 解决 这 些 问 题 ; 可 以 参考 上 面 提 到 的 书 。 然 而 ， 如 果 一 个 系统 或 者 物理 机 制 是 非 线 性 的 ， 
我 们 面临 的 问题 将 更 加 困难 。 在 这 些 情 况 下 ， 神 经 网 络 有 潜力 提供 行 得 通 的 解 ， 从 而 在 它们 
的 应 用 中 产生 了 很 大 的 差异 。 

在 神经 网 络 的 环 景 下 ， 我 们 对 时 序 处 理 有 两 种 选择 方案 : 

。 BD A at Hit Fe 24 

。 递归 网 络 。 

下 面 两 章 将 讨论 递归 网 络 。 这 一 章 我 们 描述 两 类 时 滞 前 馈 网 络 (TLFN ): 集中 式 和 分 布 
式 TLFN。 在 一 个 集中 式 TLFN 中 ， 短 期 记忆 完全 位 于 静态 网 络 的 前 端 ， 可 直接 进行 设计 。 训 
练 集中 式 TLFN， 假 定 用 多 层 感 知 器 来 实现 静态 神经 网 络 , 则 可 以 用 标准 的 反 向 传播 算法 完 
成 。 由 Sanberg and Xu(1997a,1997b) 得 到 的 通用 短视 映射 定理 ， 我 们 有 一 个 存在 定理 ， 通 过 
用 两 个 功能 块 ( 即 一 组 线性 滤波 器 块 和 一 个 静态 神经 网 络 ) 的 级 联 ， 提 供 逼 近 任意 短视 映射 
( 即 具有 一 致 衰减 记忆 的 因果 映射 ) 的 数学 基础 。 这 样 一 个 结构 可 以 使 用 集中 式 TLFN 来 实 
现 ， 于 是 也 就 提供 了 这 个 定理 的 物理 实现 。 

FPP —F TLFN 是 分 布 式 TLFN， 依 赖 于 使 用 神经 元 的 时 空 模型 ， 即 一 个 多 输入 神经 元 滤 
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器 凭借 在 单个 神经 元 周围 建立 的 时 空 信号 处 理 能 力 提 供 一 个 强大 功能 块 。 为 了 训练 它 ， 我 们 
可 以 使 用 第 3 章 描 述 的 最 小 二 乘 (least-mean-square, LMS) 算 法 。 然 而 ， 要 训练 一 个 分 布 式 
TLFN， 我 们 需要 一 个 复杂 的 学 习 算法 ， 诸 如 13.9 节 中 描述 的 时 序 反 向 传播 算法 。 分 布 式 
TLFN 的 突出 特征 是 时 间 的 隐 式 表示 分 布 于 整个 网 络 中 ， 因 此 具有 和 处理 非 平稳 (即时 变 ) 环 境 
的 能 力 。 相 反 ， 在 和 集中 式 TLFN 中 ， 按 定义 ， 时 间 的 隐 式 表达 集中 于 网 络 的 前 端 ， 这 限制 它 
实际 应 用 于 平稳 (即时 间 不 变 ) 环 境 。 


注释 和 参考 文献 


[1] 关于 时 间 在 神经 处 理 中 的 作用 的 短文 ， 人 参见 Elman(1990) 的 标题 为 “发 现时 间 中 的 结构 ” 
的 经 典 论文 。 ~ 

[2] 在 Hopfield(1995) 中 描述 在 神经 处 理 中 时 间 的 显 式 表示 的 一 种 方法 。 特 别 ， 对 进行 整体 
振荡 的 活动 模式 使 用 动作 电位 的 定时 表示 模拟 信息 ， 并 引用 这 方面 神经 生物 学 的 证 据 ; 
动作 电位 (action potentials) 在 第 1 章 描述 。 

[3] 关于 短期 记忆 结构 和 它们 在 时 序 处 理 的 作用 ， 参 看 Mozer(1994) 。 

[4] 对 用 于 语音 识别 的 TDNN 和 HMM 的 混合 方法 的 讨论 ， 可 参看 Bourlard and Morgan 
(1994), Katagiri and McDermott (1996) 和 Bengio( 1996) 。 

一 些 TDNN — HMM 的 混合 结合 使 用 TDNN 框架 编码 器 ( 即 映 射 “ 听 觉 特 征 检测 器 "到 一 个 
“音素 码 ”) 和 HMM 词 / 句 的 路 径 发 现 器 ( 即 映射 “音素 符号 ”为 “ 词 / 句 的 类 ”)， 其 中 编码 
融和 路 径 发 现 器 都 是 单 开设 计 的 。 在 一 些 高 级 的 TDNN - HMM 混合 中 使 用 整个 系统 的 
平方 误差 损失 函数 使 得 和 词 / 句 的 误差 计数 相关 的 损失 能 够 被 最 小 化 。 这 后 一 种 格式 的 
例子 为 在 Haffner et al.(1991) 和 Haffner( 1994) 中 描述 的 多 状态 TDNN。 分 开设 计 模 块 的 
简单 混合 经 常 导致 设计 的 训练 性 能 和 测试 性 能 的 不 匹配 。 在 这 方面 多 状态 TONN 表现 
更 好 。 

在 根本 意义 上 递归 网 络 ( 在 第 15 章 讨论 ) 比 类 似 TDNN 的 “复制 "网 络 对 于 语音 信和 号 的 时 
序 结构 建 模具 有 更 大 的 能 力 。 但 是 ， 由 于 考虑 到 语音 信和 号 的 非 平稳 性 和 非 线性 性 ， 即 
使 是 递归 网 络 ， 它 们 自己 对 于 精确 的 语音 识别 也 许 并 不 是 足够 的 。 

[5] 关于 通用 短视 映射 定理 的 由 来 ， 参 看 Sandberg( 1991)。 

[6] 关于 时 序 反 向 传播 算法 的 另 一 个 图 解 推导 ， 参 看 Wan and Beaufays( 1996)。 

[7] 在 Wan(1994) 中 ， 利 用 时 序 反 向 传播 算法 对 NH 激光 的 具有 混沌 震动 的 非 平 稳 时 间 序 
列 进行 预测 。 这 个 特殊 的 时 间 序 列 是 1992 年 在 美国 Santa Fe 研究 所 举行 的 时 间 序 列 竞赛 
的 一 部 分 。 对 这 个 时 序 处 理 任务 ,包括 标准 的 递归 和 前 馈 神 经 网 络 以 及 许多 传统 的 线性 
技术 在 内 的 各 种 各 样 的 解 中 ，Wan 的 解 赢得 了 竞赛 (Wan,1994)。 混 沌 在 第 14 章 讨论 。 


习题 
集中 式 时 滞 前 馈 网 络 (TLFN) 
13.1 对 用 于 非 线性 动态 过 程 建 模 的 集中 式 TLFN 的 主要 特性 进行 概括 。 


13.2 在 图 13-10 中 描绘 的 集中 式 TLFN 使 用 抽 头 延迟 线 记忆 来 实现 短期 记忆 。 和 那么 在 
集中 式 TLEN 中 使 用 Gamma 记忆 来 实现 得 期 记忆 的 优 缺 点 是 什么 ? 
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13.3 在 第 2 章 中 ， 我 们 定性 地 描述 实现 非 线性 自 适应 滤波 的 动态 方法 。 这 个 方法 涉及 
到 一 种 静态 神经 网 络 ， 其 刺激 是 通过 应 用 滑动 窗口 来 馈 给 输入 数据 。 这 个 窗口 随 着 每 个 新 的 
数据 样本 的 到 来 而 发 生 移动 ， 窗 口中 的 旧 样 本 滑 出 ， 给 新 的 数据 样本 以 空间 。 试 讨论 一 个 集 
中 式 TLFN 如 何 实现 这 种 连续 学 习 的 形式 。 
神经 元 的 时 空 模型 

13.4 考虑 一 个 神经 元 滤波 器 ， 其 诱导 局 部 域 v(t) 由 式 (13.16) 定 义 。 假 设 这 个 等 式 的 
时 间 函 数 有 (1) 由 平移 单元 冲击 (1) =8(0 -已 ) 来 代替 ， 其 中 是 一 个 固定 延迟 。 描 述 这 种 
修改 对 神经 元 滤波 器 带 来 的 变化 。 

13.5 使 用 LMS 算法 ， 对 图 13-9 中 的 多 输入 神经 元 滤波 器 给 出 学 习 算 法 的 公式 。 
时 序 反 向 传播 

13.6 图 13-18 描述 用 高 斯 形式 的 时 间 窗 口 作为 时 序 处 理 的 方法 (Bodenhausen and 
Waibel，1991)。 与 神经 元 j 的 突 触 i 相 联 系 的 时 间 和 窗口 ， 记 为 0(n ,ti ,0;)， 其 中 ,和 6; 分 别 
表示 时 延 和 窗口 的 宽度 ， 表 示 为 


1 1 2 
Oln, Tiso) = zzl- PA — Ti) | 
神经 元 j 的 输出 模型 为 
y(n) = ol Dy wu (n)) 
其 中 w(n) 是 输入 x(n) AUT OC, ti ,0; ) 的 卷 积 。 属 于 神经 元 j 的 突 触 i 的 权 值 w; 和 
时 延 zy 都 使 用 监督 方式 学 习 。 


输入 


x(n) 


输入 


x(n) a) 





输入 


Xp ín) 


放大 这 个 窗口 






一 一 一 > Min 


图 13- 18 
这 个 学 习 可 以 通过 标准 的 反 向 传播 算法 来 实现 。 试 通过 推导 w, ,t; ,ay 的 更 新 公式 演示 这 
个 学 习 过 程 。 
13.7 在 13.9 节 提供 关于 时 序 反 向 传播 算法 的 材料 中 处 理 等 长 的 突 触 FIR 滤波 器 。 你 
如 何 处 理 不 等 长 的 突 触 FIR 滤波 器 ? 
13.8 ”讨论 时 序 反 向 传播 算法 如 何在 单 步 预测 的 分 布 式 TLEN 的 训练 中 使 用 。 
13.9 约束 的 (因果 的 ) 和 无 约束 的 ( 非 因 果 的 ) 时 序 反 向 传播 算法 形式 上 的 差异 类 似 于 标 











662 








ra 





484 #13 Ë 





准 的 最 小 二 乘 (LMS) 算 法 和 延迟 LMS 算法 的 差异 ; LMS 算法 在 第 3 章 讨 论 。 扩 充 这 个 类 比 。 
计算 机 实验 
13.10 在 这 个 题目 里 我 们 用 标准 的 BP 算法 来 解决 困难 的 非 线性 预测 问题 ， 比 较 它 与 
LMS 算法 的 性 能 。 时 间 序 列 由 离散 Volterra 模型 建立 ， 其 形式 为 
x(n) = Deon - 2)+ > Digla -i)v(n-j)+: 
HP g, , gy, AÈ Volterra 系数 。 um) 是 独立 的 Gauss 分 布 白 噪 声 序 FIWA. x(n) SE Volterra 
WB. AOR AUT AR I (MA) PR, BIR AOR A 
高 阶 的 非 线性 的 部 分 。 一 般 地 ， 对 Volterra 系数 的 估计 通常 认为 是 困难 的 ， 主 要 是 因为 它们 
和 数据 的 非 线性 关系 。 
在 这 个 习题 中 ， 我 们 考虑 一 个 简单 的 例子 
x(n) = v(n) + Bo(n - 1)v(n - 2) 
时 间 序 列 是 零 均 值 的 ， 不 相关 的 ， 从 而 有 一 个 白 噪声 的 谱 。 然 而 ， 时 间 序 列 的 样本 并 不 是 互 
相 独 立 的 。 模 型 输出 的 方差 由 于 = +Bo Bh, Khe 是 白 噪 声 的 方差 。 
(a) 构 造 一 个 多 层 感 知 器 ， 有 6 个 输入 节点 ， 隐 藏 层 含有 16 个 神经 元 ， 只 有 一 个 输出 神 
经 元 。 使 用 抽 头 延 时 线 记忆 馈 给 网 络 的 输入 层 。 隐 藏 层 神色 经 元 使 用 wnt 激活 函数 ， 限制 
在 区 间 [0,1j] 区 间 内 ， 而 输出 神经 元 充当 一 个 线性 的 组 合 器 。 网 络 使 用 标准 反 向 传播 算法 进 
行 训 练 ， 有 关 参 数 如 下 : 


学 习 率 参数 : 7=0.001 
动量 常数 a=0.6 


处 理 的 样本 总 数 100 000 
每 个 回合 的 样本 数目 1000 
总 的 回合 数目 2 500 
白 噪声 方差 c 为 1。 因 此， 用 B=0.5， 我 们 求 出 预测 器 的 输出 方差 为 £ = 1.25。 
计算 非 线性 预测 器 的 学 习 曲 线 ， 将 预测 器 输出 x(n) 的 方差 绘制 成 训练 样本 的 回合 数 的 
函数 ， 一 直 画 到 2 500 个 回合 。 为 了 准备 进行 训练 的 每 个 回合 ， 探 讨 下 属 两 种 方式 : 
维持 训练 样本 的 时 序 ， 从 一 个 回合 到 下 一 个 回合 与 它 产生 的 时 序 一 样 。 
《这 训练 样本 的 顺序 从 一 个 状态 (模式 ) 到 另 一 个 状态 是 随机 产生 的 。 
同时 ， 对 1 000 个 样本 的 确认 集 使 用 交叉 确认 (在 第 4 章 中 描述 )， 监 测 预测 器 的 学 习 行 
为 。 
(b) 重 复试 验 ， 使 用 LMS 算法 对 6 个 样本 的 输入 执行 线性 预测 。 算 法 的 学 习 率 参数 设置 
为 7= 107 5。 
(ce) 重 复 整个 实验 , AB=1, o =2; 接着 再 重复 ， 用 B=2, 0 = 5。 
每 个 实验 的 结果 应 该 揭示 反 向 传播 算法 和 LMS 算法 最 初 基本 遵循 相似 的 途径 ， 然 而 反 
向 传播 算法 继续 改进 ， 最 终 产生 一 个 接近 预定 值 @ 的 预测 方差 。 





第 14 章 神经 动力 学 


14.1 简介 


在 前 一 章 关于 时 间 处 理 中 ， 我 们 研究 了 短 时 记忆 结构 和 由 记忆 结构 刺激 静态 神经 网 络 
(如 多 层 感知 机 ) ， 以 及 如 何 将 它 作为 动态 映射 器 运行 。 另 一 个 可 用 于 把 时 间 以 隐 含 的 方式 嵌 
人 神经 网 络 的 运行 之 中 的 重要 途径 是 通过 使 用 反馈 。 把 反馈 应 用 于 神经 网 络 有 两 种 基本 途 
fe: 网 络 中 单一 神经 元 层次 上 的 局 部 反馈 ， 和 包含 整个 网 络 的 全 局 反馈 。 局 部 反馈 处 理 起 来 
是 相对 简单 的 ， 但 全 局 反馈 有 更 深 的 含义 。 在 关于 神经 网 络 的 文献 中 ， 带 有 一 个 或 者 更 多 反 
馈 回 路 的 神经 网 络 被 称 为 递归 网 络 。 在 本 章 和 下 一 章 中 ， 我 们 将 注意 力 集中 在 使 用 全 局 反馈 
的 递归 网 络 。 

反馈 就 像 一 柄 双 刃 剑 ， 因 为 如 果 你 不 能 恰当 地 使 用 它 ， 那 么 它 就 会 产生 负面 效果 。 特 
别 ， 反 馈 的 应 用 能 导致 本 来 是 稳定 的 系统 变 成 不 稳定 的 。 在 这 一 章 中 ,我 们 的 主要 兴趣 在 于 
递归 网 络 的 稳定 性 。 递 归 网 络 其 他 方面 的 问题 我 们 将 在 下 一 章 中 考虑 。 

被 视 为 非 线性 动力 系统 并 特别 强调 稳定 性 问题 的 神经 网 络 的 主题 被 称 为 神经 动力 学 
(neurodynamics)(Hirsch,1989) 。 非 线性 动力 系统 的 稳定 性 (或 不 稳定 性 ) 的 一 个 重要 特征 就 在 
于 它 是 整个 系统 的 特性 。 作 为 一 个 推论 ， 稳 定性 的 存在 总 是 意味 着 在 系统 的 各 个 独立 部 分 之 
闻 某 种 形式 的 协调 (Ashby,1960)。 似 乎 对 神经 动力 学 的 研究 开始 于 1938 4 Nicholas Rashevsky 
的 工作 之 中 ， 那 时 将 动力 学 应 用 于 生物 学 领域 第 一 次 浮现 在 他 充满 幻想 的 头脑 中 。 

非 线性 动态 系统 的 稳定 性 是 一 个 处 理 起 来 很 环 手 的 问题 。 当 谈 到 稳定 性 问题 的 时 候 ， 拥 
有 工程 背景 的 人 经 常会 想到 有 界 输入 和 有 界 输 出 (BIBO) 的 稳定 性 准则 。 依 照 这 一 准则 ， 稳 
定性 意味 着 如 果 有 界 的 输入 和 初始 条 件 或 没有 不 必要 干扰 ， 那 么 系统 的 输出 就 必定 不 会 无 界 
地 增长 (Brogan,1985)。BIBO 稳定 性 准则 非常 适合 于 线性 动态 系统 。 但 是 ， 由 于 舱 人 神经 元 
结构 之 中 的 饱和 非 线性 使 得 所 有 的 这 样 一 些 非 线性 动态 系统 都 是 BIBO 稳定 的 ， 所 以 把 BIBO 
稳定 性 准则 应 用 到 神经 网 络 上 是 无 用 的 。 

当 在 非 线性 动态 系统 背景 谈 到 稳定 性 时 ， 我 们 通常 都 意味 着 Lyapunov 意义 的 稳定 性 。 在 
1892 年 一 个 值得 庆贺 的 日 子 里 ， Lyapunov( 一 位 俄罗斯 数学 家 和 工程 师 ) 提 出 了 众所周知 的 稳 
定性 理论 基本 概念 一 一 Lyapunov 直接 方法 。 这 一 方法 被 广泛 用 于 线性 和 非 线 性 系统 中 的 稳定 
性 分 析 ， 包 括 时 不 变 和 时 变 两 种 情况 。 因 此 ， 它 可 以 直接 用 于 神经 网 络 中 的 稳定 性 分 析 。 事 
实 上 ， 本 章 中 提 到 的 很 多 材料 都 涉及 到 Lyapunov 直接 方法 。 但 是 ， 它 的 应 用 不 是 一 个 轻松 的 
任务 。 

对 神经 动力 学 的 研究 可 能 会 遵从 两 种 途径 之 一 ， 这 取决 于 实际 的 应 用 : 

。 确定 性 神经 动力 学 : 此 时 神经 网 络 模型 带 有 确定 的 行为 。 数 学 上 用 一 组 非 线性 微分 
方程 来 描述 ， 微 分 方程 定义 作为 时 间 函 数 的 模型 的 精确 进化 (Grossberg, 1967; Cohen 
and Grossberg , 1983; Hopfield, 1984) 。 

。 统计 性 神经 动力 学 ; 此 时 神经 网 络 受 到 存在 噪声 的 扰动 。 在 这 种 情况 下 ， 我 们 将 不 
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得 不 处 理 随 机 非 线 性 微分 方程 组 ， 因 而 用 概率 术 话 表示 解 (Amari et al. , 1972; Peretto, 
1984; Amari, 1990)。 随 机 性 和 非 线性 的 组 合 使 得 这 个 主题 将 非常 难于 处 理 。 
在 本 章 中 ， 我 们 将 自己 限制 在 确定 性 神经 动力 学 之 内 。 


本 章 的 组 织 


本 章 中 的 材料 分 成 三 个 部 分 。 在 由 14.2 节 到 14.6 节 组 成 本 章 的 第 一 部 分 ， 我 们 提供 介 
绍 性 的 材料 。14.2 节 介 绍 一 些 动态 系统 中 的 基本 概念 ， 随 后 在 14.3 节 中 讨论 的 平衡 点 稳定 
性 。14.4 节 中 描绘 在 动态 系统 研究 中 浮现 出 的 各 种 类 型 的 吸引 子 。 在 14.5 节 再 次 讨论 曾 
经 在 第 13 章 中 导出 的 神经 元 的 加 性 模型 。 在 14.6 节 讨 论 作 为 神经 网 络 范例 的 吸引 子 的 运 
作 。 

本 章 第 二 部 分 由 14.7 节 到 14.11 节 组 成 ， 处 理 联想 记忆 。14.7 节 致 力 于 详细 讨论 
Hopfield 模型 和 作为 按 内 容 寻 址 记忆 使 用 的 离散 Hopfield 模型 的 细节 问题 。 在 14.8 节 提 出 
Hopfield 网 络 这 种 应 用 上 的 计算 机 实验 。14.9 节 中 对 于 包含 Hopfield 网 络 和 其 他 联想 记忆 的 
非 线性 动态 系统 作为 其 特例 的 非 线性 系统 ， 给 出 它们 的 Cohen-Grossberg 定理 。 在 14.10 节 中 
描述 另 一 个 被 称 为 盒 中 脑 状 态 模型 的 神经 动力 学 模型 ， 该 模型 非常 适用 于 聚 类 。14.11 节 提 
出 对 这 个 第 二 种 模型 上 的 计算 机 实验 。 

最 后 部 分 由 14.12 节 到 14.14 节 组 成 ， 处 理 混 沌 的 论题 。14.12 节 讨 论 混沌 过 程 的 不 变 
特征 ， 随 后 在 14.13 节 讨 论 混 沌 过 程 动力 学 重建 这 一 紧密 相关 题目 。 动 力学 重建 的 计算 机 实 
验 在 14.14 节 中 给 出 。 

本 章 在 14.15 节 中 用 一 些 最 后 评论 结束 本 章 。 


14.2 动态 系统 


为 了 进行 神经 动力 学 的 研究 ， 我 们 需要 用 一 个 数学 模型 描述 非 线性 系统 的 动力 学 。 自 然 

最 适合 这 一 用 途 的 模型 就 是 状态 空间 模型 。 根 据 这 个 模型 ， 我 们 考虑 一 组 状态 变量 ， 假 设 这 

些 变量 的 值 (在 任意 特定 时 刻 ) 都 包含 充分 的 信息 可 以 预测 系统 的 可 能 演化 。 令 xi (1), x(t), 

… ,xw(t)， 表 示 非 线性 动态 系统 的 状态 变量 ， 其 中 连续 时 间 i 是 独立 变量 上 且 N 为 系统 的 阶 。 

为 了 简化 符号 ， 把 这 些 状 态 变 量 收集 在 一 个 叫做 系统 状态 向 量 的 Nx1 的 向 量 x(1) 里 。 那 么 
非 线 性 动态 系统 的 一 大 类 的 动力 学 特性 就 可 以 用 一 阶 微分 方程 组 

La = Bla(t)), j= 12 (14.1) 


的 形式 给 出 ， 一 般 来 说 ， 其 中 的 函数 玉 (. ) 是 它 的 自 变量 的 非 线 性 函数 。 我 们 可 以 用 向 量 符 
号 把 这 个 方程 组 写成 紧凑 形式 


x(1) = F(x(t)) (14.2) 


其 中 非 线 性 函数 下 是 向 量 值 的 ， 它 的 每 一 个 元 素 作 用 于 下 述 状态 向 量 中 的 一 个 对 应 元 素 : 

x(t) = Cale), x(t), a(t)" (14.3) 
SOZESK (14.2) PARE, AERAR FG) 不 显 式 地 依赖 于 时 间 :， 则 这 样 的 非 线 性 动态 
系统 被 称 为 自治 的 (autonomous); 否则 称 为 非 自 治 的 (nonautonomous)il。 我 们 只 关注 自治 系 
统 。 





形 经 动力 党 487 





不 管 非 线性 函数 FO ) 的 精确 形式 是 什么 ， 状 态 向 量 x( 七 必须 随时 间 改 变 ; 否则 ，x( 2) 
就 是 常量 而 系统 也 不 再 是 动态 的 。 因 此 我 们 可 以 正式 定义 一 个 动态 系统 如 下 : 


动态 系统 是 状态 随时 间 变 化 的 系统 。 


此 外 ， 我 们 可 以 把 dx/ 必 作为 “速度 "考虑 ， 不 是 在 物理 意义 上 而 是 在 抽象 意义 上 的 。 那 
么 ， 根 据 式 (14.2)， 可 以 将 向 量 函 数 F(x) 称 为 速度 向 量 场 或 者 简单 地 称 为 向 量 场 (vector 
field) 。 


状态 空间 


将 状态 空间 方程 (14.2) 看 作 描述 N 维 状态 空间 中 一 个 点 的 运动 是 有 益 的 。 状 态 空间 可 
能 是 欧 几 里 德 空间 或 者 是 它 的 一 个 子 集 。 也 可 能 是 非 欧 氏 空间 ， 就 像 圆 、 球 、 环 或 者 其 他 一 
些微 分 流 形 。 但 是 ， 我 们 的 兴趣 只 4 限于 欧 氏 空间 。 

状态 空间 很 重要 ， 因 为 它 给 我 们 提供 可 视 的 /概念 化 的 工具 用 来 分 析 由 式 (14.2) 描 述 的 
非 线性 系统 的 动力 学 。 它 是 通过 把 我 们 的 注意 力 集中 于 运动 的 全 局 特性 而 不 是 方程 的 解析 解 
或 数值 解 的 细节 方面 来 实现 的 。 x 

在 一 特定 时 刻 上 ， 用 N 维 状 态 空间 中 
的 一 个 点 表示 系统 被 观察 状态 ( 即 状态 向 
量 x(1))。 用 状态 空间 中 的 一 条 曲线 表示 
系统 状态 随时 间 上 的 变化 ， 曲 线 上 的 每 一 
点 都 ( 显 式 地 或 隐 含 地 ) 带 有 记录 观察 时 间 
的 标记 。 这 条 曲线 叫做 系统 的 轨 线 或 执 
道 。 图 14-1 描绘 一 个 二 维系 统 的 轨 线 。 轨 
线 的 瞬时 速度 ( 即 速 度 向 量 dx(1)/di) 用 切 
向 量 表示 ， 如 图 14-1 中 1 = t 时 刻 用 虚线 
的 表示 。 因 此 我 们 可 以 得 出 轨 线 上 每 一 点 
的 速度 向 量 。 

由 不 同 初始 条 件 产生 的 不 同 轨 线 的 集 
全 你 为 系统 的 状态 相 图 (state porate 状 





场 F(x) 的 点 。 和 每 
种 初始 状态 将 只 有 一 条 轨 线 穿 过 。 从 状态 相 图 产生 的 一 个 有 用 概念 是 动态 系统 的 流 (flow)， 


被 定义 为 状态 空间 在 系统 内 部 的 运动 。 换 名 话说， 可 以 想像 一 下 状态 空间 在 自身 内 部 流动 ， 
就 像 一 种 流体 ， 每 一 个 点 (状态 ) 沿 着 一 条 特定 轨 线 的 流动 (Abraham and Shaw, 1992 )。 这 里 
描述 的 流 的 思想 在 图 14-2 的 状态 相 图 中 有 生动 的 说 明 。 

给 定 一 个 动态 系统 的 状态 相 图 ， 可 以 构造 一 个 对 应 于 状态 空间 中 每 一 个 点 的 速度 (切线 ) 
向 量 场 。 这 样 得 到 的 图 也 提供 系统 中 向 量 场 的 描绘 。 图 14-3 中 显示 许多 速度 向 量 ， 展 现 完 
全 的 场 看 起 来 像 什么 样子 。 向 量 场 的 用 处 在 于 事实 上 它 通过 在 状态 空间 中 每 一 个 特定 点 以 惯 
性 速度 移动 ， 给 我 们 提出 一 种 对 动态 系统 固有 运动 倾向 的 可 视 描述 。 








488 #14 = 








图 14-2 二 维 动态 系统 的 状态 (相位 ) 图 图 14-3 二 维 动力 系统 向 量 场 


Lipschitz 条 件 


为 了 状态 空间 方程 (14.2) 有 人 解 且 是 惟一 解 ， 必 须 在 向 量 函 数 F(x) 上 施加 一 定 的 限制 。 
为 了 便于 表示 ， 我 们 已 经 舍弃 了 状态 向 量 x 对 时 间 : 的 依赖 ， 而 这 是 我 们 一 次 又 一 次 遵从 的 
惯例 。 存 在 解 的 充分 条 件 为 F(x) 对 它 的 所 有 自 变量 是 连续 函数 。 然 而 ， 它 这 一 限制 本 身 不 
足以 保证 解 的 惟一 性 。 为 了 做 到 这 一 点 ， 我 们 必须 施加 被 称 为 Lipschitz 条 件 的 额外 限制 。 令 
| x 表示 向 量 x 的 范 数 或 者 欧 几 里 德 长 度 。 令 x 和 作为 赋 范 向 量 (状态 ) 空 间 上 某 一 开 集 
从 上 的 一 个 向 量 对 。 然 后 ， 根 据 Lipschitz 条 件 ， 存 在 一 个 常量 使 得 下 式 对 机 中 所 有 的 x 和 
u 都 成 立 (Hirsch and Smale, 1974; E. A . Jackson, 1989 ): 
| F(x) - F(u) || < Kix-ul (14.4) 
TAB SU 14.4) BY [a] REKE F) PK TAL Lipschitz APE, K 叫做 F(x) 的 Lipschitz 常数 。 
式 (14.4) 也 意味 着 函数 F(x) 关 于 x 的 连续 性 。 因 此 ， 对 自治 系统 来 说 ，Lipschitz 条 件 是 状态 
空间 方程 (14.2) 存 在 且 只 存在 惟一 解 的 充分 条 件 。 特 别 地 ， 如 果 所 有 偏 导数 9 FF/3x; 处 处 有 
限 ， 则 函数 F(x) 满足 Lipschitz 条 件 。 


散 度 定理 


考虑 自治 系统 状态 空间 中 某 个 体积 V 和 曲面 5 的 区 域 ， 并 且 设 想 由 区 域 的 点 组 成 的 
“ 流 ”。 从 以 前 的 讨论 ， 我 们 认识 到 速度 向 量 dx/d 和 向 量 场 F(x) 是 相等 的 。 倘 若 体 积 了 内 
的 向 量 场 F(x) 是 相当 光滑 ， 则 可 以 从 向 量 微 积分 学 的 角度 应 用 散 度 定理 (Jackson,1975 )。 令 
n 表示 曲面 $ 上 某 小 块 ds 处 指向 所 包含 体积 外 部 的 单位 法 向 量 。 然 后 ， 根 据 散 度 定理 ， 关 
系 式 


| oo -n)dS = fov . F(x)) dV (14.5) 
在 ECx) 散 度 的 体积 分 和 下 (x) 向 外 法 线 分 量 的 曲面 积分 之 间 成 立 。 式 (14.5) 左 端的 值 被 认为 
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是 从 曲面 S 所 包围 的 区 域 中 流向 外 部 的 净 流 量 。 如 果 该 值 为 零 ， 则 说 系统 是 保守 的 
(conservative); 若 为 负 ， 则 说 系统 是 耗 散 的 (dissipative)。 根 据 式 (14.5)， 同 样 可 以 说 ， 如 果 
散 度 V .F(x) (一 个 标量 ) 为 零 则 系统 是 保守 的 ， 若 为 负 则 系统 是 耗 散 的 。 


14.3 平衡 状态 的 稳定 性 


考虑 由 状态 空间 方程 (14.2) 描 述 的 自治 动态 系统 。 一 个 常 向 量 xEU 称 为 系统 的 平衡 ( 稳 
定 ) 状 态 ， 如 果 条 件 
F(x) = 0 (14.6) 
满足 ， 其 中 的 0 为 零 向 量 。 速 度 向 量 dx/ di 在 平衡 状态 处 消失 ， 因 此 常量 方程 x(1) =x 
方程 (14.2) 的 解 。 此 外 ， 由 于 解 的 惟一 性 ， 没 有 其 他 的 解 曲线 能 够 穿 过 平衡 状态 &。 平 衡 状 
态 也 称 为 奇异 点 ， 表 示 在 平衡 点 这 种 情况 下 ， 轨 线 将 会 退化 到 这 个 点 本 身 。 
为 了 加 深 对 平衡 条 件 的 理解 ,假设 非 线性 函数 F(x) 对 于 状态 空间 方程 (14.2) 来 说 足够 
光滑 ， 使 得 在 x 的 邻 域 可 以 作为 线性 函数 处 理 。 特 别 ， 令 
x(t) = ¥ + Ax(t) (14.7) 
其 中 的 Ax( 1) AE x MU 2. RR, PRB F(x) Taylor 级 数 展开 中 的 前 两 项 ， 将 其 近似 
为 


F(x) ~ X + AAx(t) (14.8) 
矩阵 A 是 非 线 性 方程 F(x) 的 Jacobi ER, 7Ex=x 点 处 计 值 ， 表 示 为 

A = FFO) lees (14.9) 
将 式 (14.7) 和 式 (14.8) 代 人 式 (14.2) ， 然 后 使 用 平衡 状态 的 定义 ， 我 们 得 到 

d Axli) ~ AAx(1) (14.10) 


倘若 Jacobi 矩阵 A ASE ATR AY, BYER A 一 存在 ， 式 (14.10) 描 述 的 近似 值 足以 确定 系统 
轨 线 在 平衡 状态 x 邻 域 的 局 部 性 质 。 如 果 A 是 非 奇 异 的 ， 则 平衡 状态 的 性 质 主要 取决 于 A 
的 特征 值 ， 因 此 可 以 根据 它 的 相应 方式 进行 分 类 。 特 别 ， 当 Jacobi 矩阵 A 的 特征 值 有 m 个 
带 有 正 实数 部 分 ， 我 们 可 以 说 平衡 状态 属于 类 型 (type)m。 

对 于 二 阶 系统 这 种 特殊 情况 而 言 ， 平 衡 状 态 的 分 类 可 归结 为 表 14-1 所 列 情况 ， 相 应 相 
图 表示 在 图 14-4 中 (Cook,1986; Arrowsmith and Place,1990)。 不 失 一 般 性 ， 假 设 平衡 状态 位 于 
状态 空间 的 原点 ， 也 就 是 x= 0 的 地 方 。 注 意 对 于 图 14-4e 中 的 鞍点 ， 通 向 鞍点 的 轨 线 是 稳 
定 的， 而 从 鞍点 离开 的 轨 线 则 是 不 稳定 的 。 


表 14-1 二 阶 系统 平衡 状态 的 分 类 





平衡 状态 京 的 类 型 Jacobi 矩阵 A 的 特征 值 
稳定 焦点 KARA he SH ZR 
不 稳定 结 点 正 实数 

不 稳定 焦点 SARA TE ASEH 
鞍点 不 同 号 的 实数 


中 心 FEY HE HER 
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e) 








图 14-4 
a) 稳 定 结 点 b) 稳 定 焦点 。c) 不 稳定 结 点 ”中 不 稳定 焦点 JBA NPL 
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稳定 性 定义 


就 像 已 经 简略 叙述 过 的 那样 ， 状 态 空 间 方程 的 线性 化 可 以 提供 关于 一 个 平衡 状态 的 局 部 
稳定 特性 的 有 用 信息 。 但 是 ， 为 了 能 以 一 种 更 加 细节 化 的 方式 研究 非 线性 动态 系统 的 稳定 
性 ， 我 们 需要 关于 平衡 状态 的 稳定 性 和 收敛 性 的 精确 定义 。 

在 和 带 有 平衡 状态 六 的 自治 非 线性 动态 系统 相关 的 环境 中 ， 稳 定性 和 收敛 性 的 定义 如 下 
(Cook ,1986 ) : 

定义 1 若 对 于 任意 给 定 的 正 数 s， 存 在 一 正 数 8， 使 得 当 满足 条 件 e‖ x(0) -x || < 8 时 ， 
对 于 所 有 上 >0 恒 有 | x(t)-x || <s， 则 称 平衡 状态 x 为 一 致 稳定 的 。 

这 一 定义 表明 如 果 初 始 状态 x(0) 很 接近 叉 ， 则 系统 的 一 条 轨 线 可 能 会 停留 在 平衡 状态 x 
很 小 的 一 个 邻 域内 。 

定义 2 ”如果 存在 一 个 正 数 8 使 得 当 条 件 ‖ x(0) -| <5 时 ， HF tw A x(t) >, W 
称 平衡 状态 为 收敛 的 。 

第 二 个 定义 的 含义 在 于 如 果 一 条 轨 线 的 初始 状态 x(0) 足 够 接近 于 平衡 状态 x， 则 在 时 间 
t 接近 无 穷 的 时 候 由 状态 向 量 x1) 所 描述 的 轨 线 将 收敛 于 又 。 

定义 3 者 平 衡 状 态 是 稳定 的 并 且 是 收敛 的 ， 则 称 平衡 状态 立 为 渐 近 稳定 的 。 

这 里 我 们 要 注意 稳定 性 和 收敛 性 是 互相 独立 的 性 质 。 只 有 两 者 都 具备 才 有 渐 近 稳定 性 。 

定义 4 如 果 平 衡 状态 是 稳定 的 并 且 所 有 的 系统 轨 线 在 时 间 i 接近 无 穷 的 时 候 都 收敛 于 
x， 则 称 平衡 状态 x 为 渐 近 稳定 的 或 者 全 局 渐 近 稳定 的 。 

这 一 定义 意味 着 系统 不 可 能 有 其 他 的 平衡 状态 ， 而 且 它 要 求 系统 中 的 每 一 条 轨 线 对 所 有 
的 时 间 上 > 0 都 保持 有 界 。 换 名 话说， 全 局 渐 近 稳定 性 意味 着 对 于 任意 初始 条 件 系统 都 将 最 
终 稳定 在 一 个 稳 态 上 。 

例 14.1 令 由 式 (14.2) 表 示 的 非 线 性 动态 系统 的 解 U) RRE 14-5 中 说 明 的 那样 随时 
间 变 化 。 如 图 14-5 所 示 ， 为 了解 u(1) 是 一 致 稳定 的 ， 我们 需要 u(1) 和 任何 其 他 解 v(1) 在 同 
样 的 1 值 (即时 间 “ 滴 答 ”) 时 保持 互相 接近 。 这 种 行为 被 称 为 两 个 解 u(t) 和 v(1) 的 同步 对 应 
(isochronous correspondence) (下 .A.Jackson,1989 )。 设 解 u(t) EKA, 假定 对 于 每 一 个 其 他 
的 解 v(t), 在 1=0 处 上 vO) -ua(0) <5(e) 成 立 ， 则 解 v(t) 和 u(t) 当 1: 趋 于 无 穷 时 收敛 于 
平衡 状态 。 a 





图 14-5 状态 向 量 一 致 稳定 (收敛 ) 的 概念 图 示 
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Lyapunov 定理 


已 经 定义 了 动态 系统 的 稳定 性 和 湛 近 稳定 性 ， 下 一 个 要 考虑 的 问题 就 是 确定 稳定 性 。 显 
而 易 见 我 们 可 以 通过 实际 地 找到 系统 状态 空间 方程 的 所 有 可 能 解 来 做 到 ; 但 是 这 种 方法 即使 
不 是 不 可 能 也 是 非常 困难 的 。 一 个 更 精致 的 方法 可 以 在 现代 稳定 性 理论 中 找到 ， 该 理论 由 
Lyapunov 创立 。 具 体 地 ， 我 们 可 以 通过 应 用 Lyapunov 直接 方法 来 研究 稳定 性 问题 ， 这 个 方法 
使 用 叫做 Lyapunov 函数 的 状态 向 量 的 连续 标量 函数 。 

由 方程 (14.2) 描 述 的 具有 状态 向 量 x(1t) 和 平衡 状态 x 的 自治 非 线 性 动态 系统 ， 关 于 它 的 
状态 空间 的 稳定 性 和 渐 近 稳定 性 的 Lyapunov 定理 可 以 陈述 如 下 : 

定理 1 如 果 在 x 的 小 邻 域内 存在 一 个 正定 函数 V(x)， 其 对 时 间 的 导数 在 该 区 域内 是 半 
负 定 的 ， 则 平衡 状态 是 稳定 的 。 

定理 2 WREX 的 小 邻 域内 存在 一 个 正定 函数 V(x)， 其 对 时 间 的 导数 在 该 区 域内 是 负 
定 的 ， 则 平衡 状态 x 是 渐 近 稳定 的 。 

满足 以 上 要 求 的 标量 函数 Y(x) 叫 做 平衡 状态 的 垃 的 Lyapunov 函数 。 

这 两 个 定理 要 求 Lyapunov 本 数 是 正定 函数 。 这 样 的 函数 定义 如 下 : 在 状态 空间 中 ， 如 
果 对 所 有 的 xE 区 ， 满 足以 下 要 求 ， 则 称 其 为 正定 函数 。 

1. 函数 V(x) 对 状态 向 量 x 中 所 有 元 素 有 连续 偏 导 数 

2. V(x) =0 

3. 如 果 xxx, WM V(x) >0 

给 出 这 样 的 Lyapunov 函数 V(x)， 根 据 定理 1， 若 中 对 于 xEU 


V(x) <0 WEE Ux (14.11) 
成 立 ， 则 平衡 状态 x 是 稳定 的 ， 其 中 以 是 的 小 邻 域 。 此 外 ,根据 定理 2， 若 
£Y(x) <0 WFxEU-x (14.12) 


成 立 ， 则 平衡 状态 EMER o 

这 一 讨论 的 重要 之 处 在 于 可 以 不 求解 系统 的 状态 空间 方程 而 直接 应 用 Lyapunov 定理 。 不 
幸 的 是 ， 定 理 并 没有 给 出 如 何 找到 Lyapunov 函数 的 提示 ; 在 每 种 情况 它 是 一 件 创造 性 、 尝 试 
和 犯错 误 的 事情 。 对 于 感 兴趣 的 很 多 问题 ， 能 量 函 数 可 以 起 到 Lyapunov KX WEM., BÆ, 
无 法 找到 适用 的 Lyapunov 函数 并 不 能 证 明 系 统 的 不 稳定 性 。 因 为 Lyapunov 函数 的 存在 是 系统 
稳定 的 充分 条 件 ， 而 不 是 必要 条 件 。 

Lyapunov 函数 V(x) 为 对 由 式 (14.2) 描 述 的 非 线 性 动态 系统 进行 全 局 稳定 性 分 析 提 供 数 
学 基础 。 另 一 方面 ， 基 于 Jacobi 和 矩阵 A， 使 用 式 (14.10) 为 进行 系统 局 部 稳定 性 分 析 提 供 基 
础 。 全 局 稳定 性 分 析 的 结论 比 局 部 分 析 更 有 力 ; 因为 每 个 全 局 稳定 的 系统 必定 是 局 部 稳定 
的 ， 反 之 则 不 然 。 


14.4 有 骸 引子 


耗 散 系 统一 般 可 以 用 存在 吸引 集 或 者 比 状态 空间 维 数 低 的 流 形 来 表征 。“ 流 形 " 是 指 髋 入 
在 NN 维 状态 空间 中 的 一 个 上 维 曲面 ， 它 由 方程 组 
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ja lyk 
M(x) .%25°77. ty) = 0, l keN 
定义 ， 其 中 x , x, ,…,xw 是 系统 N 维 状态 向 量 的 元 素 ， 好 是 这 些 元 素 的 一 个 函数 。 这 些 流 
形 称 为 吸引 子 ”， 这 是 因为 吸引 子 为 有 界 子 集 ， 初 始 条 件 为 非 零 状态 空间 体积 的 区 域 随 时 间 
增加 而 收敛 到 它们 (0Ott,1993 )。 

流 形 可 以 是 状态 空间 中 的 一 个 点 ， 这 种 情况 叫做 点 吸引 子 。 另 外 ， 它 也 可 以 是 周期 性 轨 
道 ， 这 种 情况 叫做 稳定 的 极限 环 ， 稳定 意味 着 附近 的 轨 线 渐 近 地 趋 近 它 。 图 14-6 描绘 这 两 
种 类 型 的 吸引 子 。 吸 引子 代表 动态 系统 中 的 惟一 可 以 通过 用 实验 方法 观察 到 的 平衡 状态 。 但 
fe, 注意 在 吸引 子 的 情况 下 , 平衡 状态 (equilibrium) 既 不 意味 着 一 个 静态 平衡 (static 
equilibrium) ， 也 不 意味 一 个 定常 状态 (steady state)。 例 如 ， 一 个 极限 环 代 表 一 个 吸引 子 的 稳 
定 状 态 (stable state), ， 但 是 它 随 时 间 连 续 变化 。 

在 图 14-6 中 ， 我 们 注意 每 个 吸引 子 由 它 自己 独 有 的 区 域 包围 。 这 样 的 区 域 叫做 吸引 盆 
( 域 )(basin( domain) of attraction)。 同 时 注意 系统 的 每 个 初始 状态 都 在 某 一 吸引 子 的 盆 中 。 分 
隔 不 同 吸引 伟 的 边界 叫做 分 界线 (separatrix)。 图 14-6 中 盆 的 边界 由 轨 线 T, Ba 0 和 轨 线 
T, 的 并 表示 。 

极限 环 组 成 非 线性 系统 的 平衡 点 变 得 不 稳定 时 出 现 的 振荡 行为 的 典型 形式 。 因 此 ， 它 可 
能 出 现在 任意 阶 的 系统 中 。 虽 然 如 此 ， 极 限 环 是 二 阶 系 统 特殊 的 特征 。 


(14.13) 








图 14-6 Mmel|sMSAD Re BULA 
KAR F 


考虑 一 个 点 吸引 子 ， 通 过 使 用 14.2 节 中 描述 的 方式 将 它 的 非 线 性 动态 方程 在 平衡 状态 又 
附近 线性 化 。 令 A 表示 系统 在 x= x 处 计算 出 的 Jacobi 矩阵 。 如 果 A 所 有 特征 值 的 绝对 值 都 
小 于 1， 则 吸引 子 是 双 曲 吸引 子 (hyperbolic attractor) (Ott, 1993 )。 例 如 ， 二 阶 双 曲 吸 引子 的 流 
可 以 为 图 14-4a 或 者 14-4b 中 所 显示 的 形式 ; 两 种 情况 下 Jacobi iM A 的 特征 值 都 有 负 实 数 
部 分 。 双 曲 吸 引子 在 称 为 消除 梯度 问题 的 研究 中 受到 特别 的 关注 ， 这 种 问题 出 现在 动态 驱动 
的 递归 网 络 中 ; 这 一 问题 在 下 一 章 讨论 。 


14.5 神经 动态 模型 
对 非 线 性 动态 系统 的 性 能 有 所 了 解 之 后 ， 准 备 在 本 节 和 下 一 节 探讨 一 下 神经 动力 学 所 包 
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含 的 一 些 重要 问题 。 我 们 要 强调 的 是 ， 对 于 神经 动力 学 还 没有 一 个 被 普遍 认可 的 定义 。 我 们 
也 不 是 要 给 出 这 样 一 个 定义 ,而 是 将 定义 本 章 中 所 考虑 的 神经 动力 学 最 普遍 的 属性 。 特 别 
地 ,讨论 将 局 限于 状态 变量 是 连续 的 并 且 运 动 方 程 由 微分 方程 或 差分 方程 描述 的 神经 动态 系 
统 。 受 关注 的 系统 具有 四 个 普遍 特性 (Peretto and Niez, 1986; Pineda, 1988a) : 

1. 大 量 自 由 度 。 人 脑 皮层 是 高 度 并 行 的 分 布 式 系 统 ， 据 估计 大 约 有 100 亿 个 神经 元 ， 每 
个 神经 元 用 一 个 或 更 多 状态 变量 描述 。 据 信 这 样 一 个 神经 动力 学 系统 的 计算 能 力 和 容错 能 力 
是 系统 的 集体 动力 学 的 结果 。 系 统 可 以 表征 为 大 量 的 由 每 个 突 触 连 接 的 强度 (效能 
(effficacy) ) 表 示 的 耦合 常量 。 

2. 非 线性 性 。 神 经 动力 学 系统 是 非 线性 的 。 事 实 上 ， 非 线性 是 建立 通用 计算 机 器 的 基 
础 。 

3. 耗 散 性 。 神 经 动力 学 系统 是 耗 散 的 。 因 此 ， 它 由 状态 空间 体积 随时 间 的 延展 收敛 于 
一 低 维 流 形 这 一 收敛 性 表征 。 

4. 噪声 。 最 后 ， 噪 声 是 神经 动态 系统 内 在 特征 。 在 实际 神经 元 中 ， 膜 噪声 在 突 触 连接 
处 产生 (Katz,1966)。 

噪声 的 存在 需要 对 神经 元 行为 利用 概率 处 理 ， 这 给 分 析 神 经 动力 学 系统 增加 了 另 一 层次 
上 的 复杂 人 性。 对 随机 神经 动力 学 的 详细 处 理 超 出 本 书 的 范围 。 因 此 ， 以 后 的 材料 中 均 忽 略 中 
声 的 影响 。 


加 性 模型 


考虑 图 14-7 中 所 显示 的 神经 元 的 无 噪声 动态 模型 ， 其 数学 基础 已 在 13 章 讨论 过 了 。 使 
用 物理 术语 ， 突 触 权 值 wi , wj,…, Wy BEAR EF BA, BH ATA a, (0), 92 (4) ary (2) 
ARAL EB, N 是 输入 数量 。 这 些 输入 被 用 于 有 如 下 特点 的 电流 求 和 连接 上 ， 

。 低 输入 阻抗 

。 单位 电流 增益 

- 高 输出 阻抗 

因此 对 输入 电流 来 说 ， 它 扮演 求 和 节点 的 角色 。 图 14-7 中 非 线性 元 素 ( 激 活 函 数 ) 流 向 
输入 节点 的 总 电流 流量 为 


Swat) +1 
其 中 第 一 项 ( 求 和 项 ) 是 由 于 刺激 z (1), xC), ey (2) BE FB EE A 4 & HB) 
Wars wa，"…，ww 上 ， 第 二 项 是 由 于 电流 源 7 代表 额外 施加 的 偏 置 。 令 v(1) 表 示 非 线性 激活 


BRI p(' ) 输 入 处 的 诱导 局 部 域 。 因 此 我 们 可 以 表示 从 非 线 性 元 素 的 输入 节点 流出 的 总 电流 
量 为 


v(t) dv;(t) 
R t ad 


其 中 第 一 项 是 由 于 漏 泄 阻 抗 丽 ， 第 二 项 是 由 于 漏 泄 电 容 Co WE Kirchoff 电流 定律 ， 我 们 知 
道 电 路 中 流向 任何 节点 的 总 电流 流量 为 零 。 通 过 应 用 Krichoff 电流 定律 于 图 14-7 中 的 非 线性 
输入 节点 ， 得 到 
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6 PEO , WD. = Sumt, (14.14) 


式 (14.14) 左 端的 电容 项 Cjdv,(1)/dt 是 在 神经 元 模型 上 添加 动力 学 (记忆 ) 的 最 简单 的 途径 。 
给 定 诱导 局 部 域 v(:)， 可 以 通过 使 用 非 线 性 关系 

xlt) = Ppl»,(i)) (14.15) 
确定 神经 元 7 的 输出 。 由 式 (14.14) 描 述 的 RC 模型 通常 称 为 加 性 模型 ; 这 一 术语 用 于 区 别 本 
模型 和 w ARR x, 的 乘法 (或 并 联 ) 模 型 (Grossberg,1982 )。 


j1 
j Wx, 











了 wax) 





突 触 输入 4 3D 0 


XNy(D o 


图 14-7 神经 元 的 加 性 模型 


由 式 (14.14) 描 述 的 加 性 模型 的 一 个 显著 特性 就 是 相 邻 神经 元 i 施加 在 神经 元 ; 上 的 信和 号 
xi (¢) FEET] 上 缓慢 改变 的 。 因 此 描述 的 模型 组 成 传统 神经 动力 学 的 基础 号。 

继续 考虑 一 个 包含 N 个 互相 连接 的 神经 元 的 递归 网 络 ， 假 设 其 中 每 一 个 神经 元 都 有 由 
式 (14.14) 和 式 (14.15) 描 述 的 同样 数学 模型 。 那 么 ， 忽 略 神经 元 内 部 时 间 传 播 的 延迟 ， 我 们 
可 以 用 联 立 的 一 阶 微分 方程 组 

CEP E Duin) + of = 12N (14.16) 

的 系统 定义 网 络 的 动力 学 ， 它 和 状态 方程 (14. 1) 有 同样 的 数学 形式 ， 并 且 是 式 (14.14) 中 各 
项 的 简单 再 排列 。 假 设 和 神经 元 j 的 输出 x;(i) 相 关 的 激活 函数 oC ) 对 它 的 诱导 局 部 域 来 说 
是 连续 和 可 微 的 函数 。 普 遍 使 用 的 激活 函数 是 logistic 函数 





1 ， 
Tr opt i = LDN (14.17) 


14.6 节 至 14.11 节 中 描述 的 学 习 算 法 存在 的 必要 条 件 在 于 由 式 (14.15) 和 (14.16) 描 述 的 递归 
网 络 具 有 固定 点 ( 即 点 吸引 子 )。 


相关 模型 


为 了 简化 说 明 ， 我 们 假设 式 (14.16) 中 神经 元 j 的 时 间 常 数 r = RC, 对 所 有 的 7 都 是 一 样 
的 。 MA, 通过 关于 这 一 时 间 常 数 的 公共 值 归 一 化 时 间 上， 并 关于 Re, ML, ATA 


ply;) = 
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重新 构造 式 (14.16) 的 模型 如 下 : 


aw =- u(t) + Dowel, lt)) + Gj = 1,2, N (14.18) 
作用 在 输入 向 量 每 个 
其 中 我 们 也 并 人 了 式 (14.15)。 联 立 一 阶 非 分 量 上 的 非 线性 集 


线性 微分 方程 组 (14.18) 的 吸引 子 结构 和 以 
下 描述 的 紧密 相关 模型 的 吸引 子 结构 基本 
上 相同 (Pineda，1987): 


oto) =— x(t) + 


of D w(t) + K, f = 1,2,°°,N 


(14.19) 
由 式 (14.18) 描 述 的 加 性 模型 中 ， 独 立 神经 
元 的 诱导 局 部 域 w (1),v,(1),…, vw(t) 构 
成 状态 向 量 。 男 一 方面 ， 在 由 式 (14.19) 描 a) 
述 的 相关 模型 中 ， 神 经 元 的 输出 xz, (2), 
(tb) c++ ,xy《t) 构 成 状态 向 量 。 
这 两 种 神经 动力 学 模型 事实 上 通过 线 
性 的 可 逆 变 换 是 相关 的 。 具 体 地 ， 通 过 在 
式 (14.19) 两 侧 同 乘 以 由 ， 对 了 求 和 ， 然 
后 用 变换 





v(t) = D wyr Ct) 
进行 蔡 换 ， 得 到 一 个 由 式 (14.18) 所 描述 的 





类 型 的 模型 ， 并 且 由 此 发 现 两 个 模型 的 偏 。 RR ee ome 
置 项 由 K 
I, = Siwk, RENE 
j b 
相关 联 。 这 里 重要 之 处 是 注意 与 式 (14.18) 
的 加 性 模型 的 稳定 性 相关 的 结果 也 适用 于 ids 
与 式 (14.19) 相 关 的 模型 。 a) 由 联 立 一 阶 微分 方程 组 (14.18) 表示 的 神经 动态 


系统 框图 b) 由 方程 组 (14.19) 描述 的 相关 模型 的 框图 
这 里 描述 的 两 种 神经 动力 学 模型 之 间 b 14.19 


的 紧密 关系 也 可 以 用 图 14-8 中 的 框图 来 说 明 。 图 中 a 和 b 部 分 分 别 对 应 于 式 (14.18) 和 
(14.19) 的 矩阵 公式 ; W 是 突 触 权 值 矩阵 ，v( 切 是 在 时 间 : 的 诱导 局 部 域 向 量 ，x(1) 是 在 时 
间 : 的 神经 元 输出 向 量 。 两 种 模型 中 反馈 的 存在 图 14-8 中 是 清晰 可 见 的 。 


14.6 ”作为 递归 网 络 范例 的 吸引 子 操作 


当 神 经 元 数量 N 非常 大 的 时 候 ， 除 去 噪声 的 影响 ， 式 (14.16) 描 述 的 神经 动力 学 模型 具 
有 14.5 节 中 概述 的 普遍 特性 大量 的 自由 度 、 非 线性 性 和 耗 散 性 。 因 而 ， 这 样 一 个 神经 动 
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力学 模型 可 能 拥有 复杂 的 吸引 子 结构 并 因此 展示 出 有 用 的 计算 能 力 。 

确认 具有 计算 对 象 ( 如 联想 记忆 、 输 入 - 输出 映射 器 ) 的 吸引 子 是 神经 网 络 范例 的 一 个 基 
础 。 为 了 实现 这 一 思想 ， 我 们 必须 训练 控制 吸引 子 在 系统 状态 空间 中 的 位 置 。 于 是 为 了 以 希 
望 的 形式 编码 信息 或 者 学 习 感 兴趣 的 时 间 结 构 ， 学 习 算 法 采用 了 非 线 性 动力 学 方程 的 形式 操 
纵 吸 引子 在 状态 空间 的 位 置 。 通 过 这 一 途径 ， 在 机 器 的 物理 性 能 和 计算 的 算法 之 间 建 立 紧密 
的 联系 是 可 能 的 。 

利用 神经 网 络 的 集体 属性 实现 计算 任务 的 一 种 途径 就 是 经 由 能 量 最 小 化 的 概念 。 在 
14.7 节 和 14.10 节 中 将 分 别 考虑 的 Hopfield 网 络 和 盒 中 脑 状 态 模型 是 这 种 方法 著名 的 例子 。 
这 两 种 模型 都 是 能 量 最 小 化 网 络 ; 它们 的 不 同 之 处 在 于 应 用 领域 不 同 。Hopfield 网 络 作为 按 
内 容 寻 址 存储 或 者 用 于 解决 组 合 类 型 最 优化 问题 的 模拟 计算 机 是 有 用 的 。 另 一 方面 ， 盒 中 脑 
状态 模型 对 于 聚 类 类 型 的 应 用 是 有 用 的 。 本 章 后 面 
几 节 将 对 这 些 应 用 进行 说 明 。 

Hopfield 网 络 和 盒 中 脑 状 态 模型 是 不 含 隐藏 神经 
元 的 联想 记忆 的 实例 ， 联想 记忆 是 智能 行为 的 一 个 
重要 来 源 。 另 一 个 神经 动力 学 模型 是 输入 输出 映射 
器 类 型 的 ， 它 的 运行 依赖 于 隐藏 神经 元 的 可 用 性 。 
在 这 后 一 种 情况 中 ， 最 速 下 降 方 法 经 常 被 用 于 最 小 
化 根据 网 络 参数 定义 的 代价 函数 ， 并 因此 改变 吸引 
子 位 置 。 这 后 一 种 神经 动力 学 模型 的 应 用 以 在 下 一 
章 中 讨论 的 动态 驱动 递归 网 络 的 作为 例子 。 


14.7 Hopfield 模型 


如 图 14-9 中 描绘 的 那样 ，Hopfield 网 络 (模型 ) 
包含 一 组 神经 元 和 一 组 相应 的 单位 延迟 ， 构 成 一 个 
多 回路 反馈 系统 。 反 馈 回 路 的 数量 等 于 神经 元 数 





量 。 基 本 上 ， 每 个 神经 元 的 输出 都 通过 一 个 单位 延 mer Mma 
迟 元 素 被 反馈 到 网 络 中 另外 的 每 一 个 神经 元 。 换 句 E 

E 14-9 包含 4 个 神经 元 的 Hopfie 
话说 ， 网 络 中 没有 自 反 馈 ; 避免 使 用 自 反馈 的 原因 a aad 
将 在 后 面 解释 。 


为 了 研究 Hopfield 网 络 的 动力 学 ， 我 们 使 用 式 (14.16) 描 述 的 基于 神经 元 加 性 模型 的 神经 
动力 学 模型 。 
认识 到 Lase aZ, 我们 可 以 把 式 (14.16) 改 写成 以 下 形式 : 
C; O =- aeo + 2y wg (v(t)) + 了 7 = 1 N (14.20) 


为 了 继续 讨论 ， 我 们 作出 以 下 假定 : 
1. 突 触 权 值 矩 阵 是 对 称 的 ， 表 示 为 
w; = wy MAA ji (14.21) 
2. 每 个 神经 元 有 它 自 己 的 非 线性 激活 函数 一 一 因此 在 式 (14.20) 中 使 用 po (+) 0 
3. 非 线性 激活 函数 可 逆 ， 因 此 可 以 写成 
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v = pi (x) 
& sigmoid 函数 pi(v) 由 双 曲 线 正切 函数 


_ 1~ exp(— aw) ( 





ay 
x = pi(v) = tanh| 5 = 
定义 ,在 原点 处 有 aN 的 斜率 ， 表 示 为 
a; dg, 
p = hb o (14.24) 





此 后 我 们 将 把 a, 称 为 神经 元 i 的 增益 。 
因此 ， 式 (14.22) 的 道 输出 -输入 关系 可 以 写 
成 


二 gl 1 4 (14.25) 


一 个 单位 增益 神经 元 的 逆 输 出 -输入 关系 的 标准 
形式 定义 为 





v = pr (x) =- 





9 (a) =- log(3 ; z) (14.26) 
按照 这 一 标准 关系 可 以 把 式 (14.25) 改 写 为 
g; (x) = Lea) (14.27) 


图 14- 10a 显示 标准 sigmoid 的 非 线性 函数 pg( vo HO HH 
线 ， 图 14- 10b 显示 相应 的 非 线性 反 函 数 p-!(x) 的 
曲线 。 
图 14-9 中 的 Hopfield 网 络 的 能 量 (Lyapunov) 函 
数 定 义 为 (Hopfield,1984) 
1 


if 
! 

S| 
Me 
Me 
$ 
& 

+ 


D Hl, Fd- Diy 
由 式 (14.28) 定 义 的 能 量 函 数 E 为 可 能 具有 很 多 极 
小 点 的 复杂 图 像 。 网 络 的 动力 学 由 寻找 那些 极 小 
点 的 机 制 描述 。 
因此 , 求 对 时 间 的 微分 ， 得 到 
sE =- D(X wa -+ 1) Ži (14.29) 


由 于 神经 动力 学 方程 (14.20) 所 具有 的 特点 ， 式 


(14.28) 


1 + exp(- ap) 


x=P(v) 





a) 


vag a) 





b) 


图 14-10 
a) 标 准 的 sigmoid 非 线性 图 b) 它 的 道 


(14.29) 右 端 圆 括号 内 的 值 被 认为 是 Ca/ 必 。 于 是 可 以 把 式 (14.29) 简 化 为 


dE y dv, \ dx; 
a =~ og) a 


(14.30) 


现在 考虑 由 x, 定义 的 vw AOA. Kesh (14.22)RAR(14.30), BR 
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=- Dolje a) -- 6( 43) [e a] (14.31) 
AEA 14- 10b HELLA ea Sg ASEH ON a BARMEN., REENT 
Joly) 20 WEAN », (14.32) 
我 们 也 注意 l 
(2) 之 0 对 所 有 的 加 (14.33) 


因而 ， 所 有 在 式 (14.31) 右 端 求 和 的 因子 都 是 非 负 的 。 换 名 话说 ， 对 式 (14.28) 定 义 的 能 量 函 
数 来 说 ,我 人 有 他 <0。 由 式 (14.28) 的 定义 看 出 函数 下 是 有 界 的 。 因 此 ， 我 们 可 以 作出 
以 下 两 个 陈述 : 

1. REEK E EES Hopfield 模型 的 Lyapunov 函数 。 

2. 根据 Lyapunov 定理 1 模型 是 稳定 的 。 

换 句 话说， 由 非 线性 一 阶 微分 方程 组 (14.20) 的 系统 描述 的 连续 Hopfield 模型 的 时 间 演 化 
代表 状态 空间 中 的 一 条 轨 线 ， 该 轨 线 找 出 能 量 (Lyapunov) 函 数 E 的 极 小 值 并 在 这 样 的 固定 点 
上 终止 。 从 式 (14.31) 也 要 注意 ， 仅 当 


f(t) = 0 对 所 有 j 
时 ， 导 数 dE/di 变 为 零 。 因 此 可 以 进一步 写 出 
Se < 0 。 除 在 一 个 固定 之 外 (14.34) 
式 (14.34) 给 出 了 下 述 定理 的 基础 : 
Hopfield 网 络 的 (Lyapunov) 能 量 函 数 忆 是 时 间 的 单调 减 函 数 。 
At, Hopfield 网 络 是 全 局 渐 近 稳定 的 ; 吸引 子 固 定点 是 能 量 函 数 的 极 小 值 ， 反 之 亦 然 。 
离散 和 连续 Hopfield 模型 的 稳定 状态 之 间 的 关系 


Hopfield 网 络 可 以 用 连续 方式 或 离散 方式 运行 ， 依 赖 于 描述 神经 元 所 采用 的 模型 。 连 续 
模型 的 运行 基于 前 面 描述 的 加 性 模型 。 另 一 方面 ， 离 散 模型 的 运行 基于 McCulloch-Pitts 模型 。 
通过 重新 定义 神经 元 的 输入 -输出 关系 ， 很 容易 在 连续 Hopfield 模型 稳定 状态 和 相应 的 离散 
Hopfield 模型 的 稳定 状态 之 间 建 立 联系 ， 使 得 这 样 的 关系 满足 下 面 两 个 简化 特性 : 

1. 神经 元 的 输出 有 渐 近 值 


十 1,0; = œ 
i = 全 |e (14.35) 
2. 神经 元 激活 函数 的 中 点 在 原点 处 ， 表 示 为 
9 (0) = 0 (14.36) 


相应 地 ， 可 以 对 所 有 的 j 设置 偏 置 /为 零 。 
为 了 表示 连续 Hopfield 模型 的 能 量 函 数 EE， 人 允许 神经 元 有 自 反 回路 。 另 一 方面 ， 离 散 
Hopfield 模型 不 需要 自 反 回路 。 央 此 ， 可 以 通过 在 两 种 模型 中 对 所 有 的 了 都 设置 w = OR 
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化 讨论 。 
根据 这 些 观 察 ， 可 以 用 如 下 形式 重新 定义 式 (14.28) 给 出 的 连续 Hopfield 模型 的 能 量 函 
数 : 


= -4 2 Dyer + 2 Rl, oF (ade (14.37) 
由 式 (14.27) 定 义 反 函数 (x) 于 是 可 以 重 写 式 (14.37) 的 能 量 函数 如 下 ， 
E=- t 2 Dux; + > ARAG (14.38) 
积分 
(Pee 


有 图 14-1 中 显示 的 标准 形式 。 在 x, = 0 积分 值 为 零 ， 其 他 情况 其 值 为 正 。 假 设 在 x, 接近 
+ 1 时 其 值 非常 大 。 但 是 ， 如 果 神 经 元 j 增益 w 变 为 无 穷 大 (例如 sigmoid 函数 的 非 线性 趋 于 
理想 的 硬 限制 形式 )， 式 (14.38) 中 的 第 二 项 就 小 得 可 以 忽 (ql ax 
略 不 记 了 。 在 限制 情况 下 ， 对 所 有 的 J/， 当 aj = o 时 连续 . ° 
Hopfield 模型 的 极 大 、 极 小 值 变 成 和 离散 Hopfield 模型 中 的 
对 应 值 相 等 。 后 一 情况 下 ， 能 量 (Lyapunov) 函 数 的 定义 简 
化 为 
- -也 Ses (14.39) 

其 中 第 /个 神经 元 状态 为 = in 因此 ， 我 们 得 出 结论 ; 
高 增益 的 、 连 续 的 和 确定 的 Hopfield 模型 仅 有 的 稳定 点 对 
应 于 离散 随机 Hopfield 模型 的 稳定 点 。 

然而 ， 当 每 一 个 神经 元 / 有 很 大 但 是 有 限 的 增益 a, Fl 14-11 积分 q7 (x) dx 的 图 形 
时 ， 我 们 发 现 式 (14.38) 右 端 第 二 项 对 连续 模型 的 能 量 函 
数 有 明显 的 贡献 。 特 别 ， 这 一 贡献 在 靠近 定义 模型 状态 空间 的 超 立 方 体 的 所 有 面 、 边 和 和 角 点 
处 都 很 大 并 且 为 正 。 而 另 一 方面 ， 该 贡献 在 远离 曲面 的 点 处 又 小 得 可 以 忽略 。 因 此 ， 这 种 模 
型 能 量 函 数 的 最 大 值 在 角 点 处 ， 但 最 小 值 却 略微 向 超 立 方 体 的 内 部 偏 移 (Hopfield， 1984)。 

图 14- 12 画 出 两 个 神经 元 的 连续 Hopfield 模型 的 能 量 等 值 线 图 或 能 量 图 。 两 个 神经 
输出 定义 图 中 的 两 个 坐标 轴 。 图 14-12 Je FAVE ARRAS ARIN Fasc 
小 值 ， 有 限 增 益 情 况 下 的 最 小 值 将 向 内 部 偏 移 。 流 向 固定 点 ( 即 稳定 最 小 值 ) 的 流 可 以 解释 为 
式 (14.28) 定 义 的 能 量 函 数 的 最 小 化 的 解 。 


离散 Hopfield 模型 作为 按 内 容 寻 址 存储 器 


Hopfield 网 络 作 为 按 内 容 寻 址 存储 器 (content-addressable memory) 在 文献 中 吸引 了 人 们 巨大 
的 注意 。 在 这 一 应 用 领域 ， 我 们 预先 知道 网 络 的 固定 点 ， 它 们 对 应 被 存储 模式 。 但 是 ， 产 生 
期 望 中 国定 点 的 网 络 突 触 权 值 是 未 知 的 ， 因 而 问题 在 于 如 何 确 定 它们 。 按 内 容 寻 址 存储 器 的 
主要 功能 是 根据 模式 不 完整 或 有 噪声 的 表示 获取 存储 在 存储 器 中 相应 模式 (项 )。 为 了 以 简洁 
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图 14-12 两 个 神经 元 的 双 稳定 态 系 统 的 能 量 等 值 线 图 。 纵 轴 和 横 轴 为 两 个 神经 

元 的 输出 。 稳 定 状 态 位 于 左下 角 和 右上 角 ， 不 稳定 的 极点 位 于 另外 两 个 角 。 第 

头 表示 状态 的 移动 。 移 动 一 般 不 垂直 于 能 量 的 等 值 线 图 。( 经 美国 国家 科学 院 允 
许 ， 摘 自 J.J.Hopfield，1984) 


方式 说 明 这 一 陈述 的 含义 ， 最 好 的 方法 就 是 引用 Hopfield 1982 年 的 论文 ; 


假定 存储 在 存储 器 中 的 项 是 “H.A.Kramers & G.H.Wannier Physi Rev.60, 252(1941).”— 
个 普通 的 按 内 容 寻 址 存储 器 ， 根 据 足 够 的 部 分 信息 能 检索 这 个 完整 的 存储 项 。 输 入 “& 
Wannier，(1941) ”可 能 就 足够 了 了。 理想 的 存储 器 能 处 理 错误 并 且 甚 至 只 输入 “Wannier， 
(1941) "就 能 检索 这 一 参考 文献 。 


因此 ， 按 内 容 寻 址 存储 器 的 一 个 重要 属性 就 是 在 给 出 存储 模式 的 信息 内 容 的 一 个 合理 子 
集 的 情况 下 检索 该 模式 的 能 力 。 此 外 ， 根 据 提供 的 线索 能 够 覆盖 不 一 致 的 信息 ， 在 这 种 意义 
下 按 内 容 寻 址 存储 是 可 以 纠 错 的 。 

按 内 容 寻 址 存储 器 (CAM) 的 本 质 是 映射 基本 存储 & 到 动态 系统 的 固定 点 (稳定 点 )x, E, 
BURA 14-13 描绘 的 那样 。 在 数学 可 以 把 这 个 映射 表示 为 

Ex, 

的 形式 。 从 左 向 右 的 箭头 代表 编码 操作 ， 而 从 右 向 左 的 箭头 代表 解码 操作 。 网 络 状态 空间 的 
吸引 子 固定 点 为 网 络 的 基本 记忆 或 做 原型 状态 。 假 设 现在 网 络 被 呈现 给 一 个 模式 ， 这 个 模式 
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包含 基本 记忆 的 部 分 但 足够 的 信息 。 那 么 我 们 可 以 将 该 特定 模式 表示 为 状态 空间 中 的 起 点 。 
原则 上 ， 倘 若 该 起 点 靠近 表示 待 检 索 记 忆 的 固定 点 ( 即 它 位 于 固定 点 的 吸引 盆 内 部 ) ， 则 系统 
应 该 随时 间 演 化 并 最 终 收敛 于 记忆 状态 本 身 。 在 那个 点 上 全 部 的 记忆 由 网 络 生 成 。 结 果 
Hopfield 网 络 有 再 现 (emergent) 的 性 质 ， 该 性 质 帮 助 它 检索 信息 和 处 理 错误 。 






基本 记忆 空间 


存储 向 量 空间 


图 14-13 递归 网 络 实现 的 编码 - 解码 示意 图 


在 使 用 McCulloch and Pitts(1943) 的 正规 神经 元 作为 基本 处 理 单元 的 Hopfield 模型 中 ， 每 
一 个 这 样 的 神经 元 具有 由 作用 其 上 的 诱导 局 部 域 所 决定 的 两 个 状态 。 神 经 元 i AP 
火 ” 状 态 用 输出 值 x, = + 1 表示 ， 而 “ 关 ” 或 “静止 ”状态 用 x, = -1 表示。 因此 对 由 N 个 神经 
元 构成 的 网 络 来 说 ， 网 络 状态 由 向 量 x= [x ,x,,… ,xn]” 定义 。 由 于 x; = + 1， 神 经 元 i 的 
状态 表示 1 比特 信息 ， 而 NW x 1 的 向 量 x 表示 N 比特 信息 的 二 进 制 字 。 

神经 元 j 的 诱导 局 部 域 w 定义 为 


v = Dy wir +b; (14.40) 
其 中 b 是 额外 施加 在 神经 元 i 上 的 固定 偏 置 。 因 此 ， 神 经 元 j 根据 确定 性 规则 
{* 1l,v > 0 
x; = 
7 -i,v <0 


修改 它 的 状态 2,0 

这 一 关系 可 以 改写 为 紧凑 形式 % = sgn[ vw ]， 其 中 sgn 是 符号 函数 。 如 果 v 恰好 是 零 会 出 现 
什么 情况 ?在 这 里 采取 的 行动 可 能 是 非常 任意 的 。 例 如 ， 如 果 w=0， 我 们 可 以 设置 % = + 1。 
然而 ， 我 们 将 使 用 如 下 约定 : WR y RE, WAT) 保持 它 原 有 状态 ， 不 管 它 是 开 还 是 关 。 就 
像 将 在 后 面 说 明 的 那样 ， 这 一 假定 的 显著 意义 在 于 作为 结果 的 流 图 表 是 对 称 的 。 

把 离散 Hopfield 网 络 作为 按 内 容 寻 址 存储 器 的 操作 有 两 个 阶段 ， 即 存储 阶段 和 检索 阶 
段 ， 如 下 面 说 明 的 那样 。 

1. 存储 阶段 。 假 设 我 们 希望 存储 -组 表示 为 {&,14=1,2,…,M| 的 N 维 向 量 (二 进 制 字 ) 
集合 。 我 们 称 这 M 个 向 量 为 基本 记忆 ， 表 示 被 网 络 存储 的 模式 。 令 ,表示 基本 记忆 的 
第 i 个 元 素 ， 其 中 类 p=1,2,…,M 。 根 据 存储 的 外 积 规则 ， 也 就 是 Hebb 学 习 的 基本 原则 的 
推广 ， 从 神经 元 ; 到 神经 元 j 的 突 触 权 值 定义 为 
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w; = 1 了》 (14.41) 
使 用 LN 作为 比例 常数 的 原因 是 为 了 简化 信息 检索 的 数学 表述 。 也 要 注意 式 (14.41) 的 学 习 
规则 是 “ 单 射 "(one shot) 计 算 。 在 Hopfield 网 络 正常 运行 中 ， 我 们 设置 
w; = 0 对 于 所 有 的 i (14.42) 
这 意味 着 神经 元 没有 自 反 馈 。 令 W 表示 网 络 Nx NR RIE, H w 作为 它 的 第 六 个 
元 素 。 从 而 我 们 可 以 把 式 (14.41) 和 式 (14.42) 用 矩阵 形式 组 合 为 如 下 的 等 式 : 


-4 Deg — MI (14.43) 


HF EE 表示 向 量 & 和 它 自身 的 外 积 ， 而 工 表示 单位 和 矩阵。 从 这 一 突 触 权 值 集 / 权 值 矩 阵 的 
定义 式 我 们 可 以 重新 确认 如 下 事实 ; 
。 网 络 中 每 一 神经 元 的 输出 都 反馈 到 所 有 的 其 他 神经 元 上 。 
。 网 络 中 没有 自 反馈 ( 即 w =0)。 
。 网 络 权 值 矩 阵 是 对 称 的 ， 表 示 为 (参照 式 (14.21)) 
w'-W (14.44) 
2. 检索 阶段 。 在 检索 阶段 ， 一 个 称 为 探 针 (probe) 的 N 维 向 量 被 强加 于 Hopfield 网 
络 作为 它 的 状态 。 探 针 向 量 的 元 素 为 +1。 它 典型 地 表征 网 络 中 基本 记忆 的 不 完整 或 噪声 形 
式 。 然 后 信息 检索 依照 动态 规则 进行 ， 在 该 规则 中 网 络 的 每 一 神经 元 j 随机 地 但 按 某 一 固定 
比率 检测 作用 在 其 上 的 诱导 局 部 域 w (包含 任意 非 零 偏 置 )。 如 果 在 某 一 时 刻 o KFS, 
则 神经 元 j 将 切换 它 的 状态 到 + 1， 或 者 保持 在 该 状态 ， 如 果 已 经 是 + 1 的话。 类 似 地 ， 如 
R v 小 于 零 ， 则 神经 元 j 将 切换 它 的 状态 到 - 1， 或 者 保持 在 该 状态 ， 如 果 已 经 是 - 1 的 话 。 
如 果 v 恰好 为 零 ， 则 不 管 是 开 还 是 关 ， 神 经 元 j 都 将 保持 原 有 状态 。 因 此 ， 从 一 个 迭代 到 
另 一 个 迭代 的 状态 更 新 是 确定 的 ， 但 是 选择 进行 更 新 操作 的 神经 元 则 是 随机 的 。 这 里 描述 的 
异步 ( 串 行 ) 更 新 过 程 继续 直到 没有 任何 进一步 的 变化 可 以 报告 为 止 。 那 就 是 说 ， 用 探 针 向 量 
Xx 开 始 ， 最 终 网 络 生成 一 个 不 随时 间 改 变 的 状态 向 量 yY， 它 的 每 个 元 素 都 满足 稳定 性 条 件 
yi = sgn( >) wy; + b) = 1,2, N (14.45) 
或 者 其 矩阵 形式 
y = sgn(Wy + b) (14.46) 
其 中 W EM RA, b 是 外 部 施加 的 偏 置 向 量 。 这 里 描述 的 稳定 性 条 件 也 称 为 对 
齐 (alignment) 条 件 。 满 足 条 件 的 状态 向 量 y 称 为 系统 状态 空间 的 稳定 状态 或 国定 点 。 因 此 我 
们 可 以 作 这 样 的 陈述 ， 当 检索 操作 异步 进行 时 ，Hopfield 网 络 将 肯定 收敛 于 一 稳定 状态 品 。 
K 14-2 提出 对 Hopfield 网 络 操作 包括 存储 阶段 和 检索 阶段 的 步骤 的 一 个 小 结 。 
表 14-2 Hopfieid 模型 小 结 


1. 学 习 。 令 & ,名 ,5w 表示 已 知 W 维 基本 记忆 的 集合 。 使 用 外 积 规则 ( 即 Hebb 学 习 的 基本 原则 ) 计 算 网 络 的 突 触 权 
值 : 


M 


1 . . 
[7 ajno i, 
= pel 
0, 


jzi 


w, ji 
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其 中 wi 为 从 神经 元 i 到 神经 元 j 的 突 触 权 值 。 向 量 CRS 41, KA TRI, WS RIE AE. 
2. 初始 化 。 令 &o 表 示 出 现在 网 络 中 的 一 未 知 N 维 输 入 向 量 ( 探 针 )。 通 过 设置 
g0) = Ej pej = 1 
初始 化 算法 ， 其 中 x;(0) 是 神经 元 j ERA noS, É ue PRET TAL 和 ee 的 第 7 个 元 素 。 
3. 选 代 直到 收 仇 。 根 据 如 下 规则 异步 地 ( 即 随机 并 且 每 次 一 个 地 ) 更 新 状态 向 量 x(n) 中 的 元 素 : 
x(n +1) = seal Sunn] = 12 


重复 这 一 迭代 直到 状态 向 量 x 保持 不 变 。 
4. 输出 。 令 xi 表示 第 3 步 计 算出 的 固定 点 (稳定 状态 )。 作 为 结果 的 网 络 输 出 向 量 y 为 


y = Mixed 


第 1 步 是 存储 阶段 ， 第 2 步 到 第 4 步 构成 检索 阶段 。 


例 14.2 为 了 说 明 Hopfield 模型 的 再 现行 为 ,考虑 图 14- 14a 所 示 的 三 个 神经 元 的 网 络 。 
网 络 权 值 矩 阵 为 


+2 -2 0 
因为 它 满足 式 (14.42) 和 式 (14.44) 的 条 件 ， 所 以 是 合法 的 。 假 定 施加 在 每 个 神经 元 上 的 偏 置 
为 零 。 由 于 网 络 中 有 三 个 神经 元 ， 所 以 要 考虑 的 可 能 状态 有 2 = 8 种 。 这 8 种 状态 中 ， 只 有 
(1, -1,1) 和 ( -1,1, - 1) 这 两 种 状态 是 稳定 的 ; 其 余 的 6 种 状态 都 是 不 稳定 的 。 我 们 说 这 两 
种 特殊 状态 是 稳定 的 是 因为 它们 都 满足 式 (14.46) 的 对 齐 条 件 。 对 状态 向 量 (1, - 1,1)， 我 们 


有 
0 -2 +21f+1 +4 
1 1 
Wy = 3/ - 2 0 一 2 -1 = 3|-4 
+2 -2 O4b41 +4 


+1 
sgn[ Wy] = f | = y 


类 似 地 ， 对 状态 向 量 ( - 1,1, - 1)， 我 们 有 


0 -2 +24T-1 -4 
ww - 引 -: 0 nal- jas 
+2 -2 0 儿 -1 -4 


硬 限制 这 一 结果 之 后 ， 得 到 


硬 限制 这 一 结果 得 到 


-1 
sgn[ Wy] = f |- y 
-1 
因此 ， 这 两 种 状态 向 量 都 满足 对 齐 条 件 。 
此 外 ， 遵 从 表 14-2 小 结 的 异步 更 新 过 程 ， 我 们 得 到 图 14- 14b 所 描绘 的 流 。 这 个 流 图 展 





六 经 动力 学 505 








图 14- 14 
a) N = 3 个 神经 元 的 Hopfield 网 络 结构 图 b) 描 绘 两 个 稳定 态 和 网 络 流 的 图 


示 关 于 网 络 中 直观 上 满足 条 件 的 两 个 稳定 状态 之 间 的 对 称 性 。 这 种 对 称 性 是 令 作用 于 其 上 的 
诱导 局 部 域 恰好 为 零 的 神经 元 保留 在 原 有 状态 的 结果 。 

图 14- 14b 也 显示 出 如 果 图 14- 14a 的 网 络 初始 状态 是 (1,1,1D)、(- 1, -1,1) 或 (1, -1, - 
1)， 那 么 在 一 次 迭代 之 后 它 将 收敛 于 稳定 状态 (1, - 1,1)。 如 果 初 始 状态 是 (- 1, -1, -1)、 
(一 1,1,1) 或 (1,1, - 1)， 则 它 将 收敛 于 第 二 个 稳定 状态 ( -1,1,-1)。 

因此 ， 网 络 有 两 个 基本 记忆 (1, - 1,1) 和 ( -1,1, -1) 表 征 这 两 个 稳定 状态 。 式 (14.43) 
的 应 用 产生 突 触 权 值 矩阵 


+1 =T 100 

l 1 2 
w- 引 -下 +1 TEn 1 0 
+1 -1 001 


[ai] 








[e] 
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它 和 图 14- 14a 所 示 的 突 触 权 值 符合 。 

通过 检验 图 14- 14b 的 流 图 ，Hopfield 网 络 的 纠 错 能 力 是 显而易见 的 : 

1. 如 果 作 用 在 网 络 上 的 探 针 向 量 和 ww 等 于 ( -1, 一 1,1)、(1,1,1) 或 (1, -1 -1)， 则 作 
为 结果 的 输出 是 基本 记忆 (1, - 1,1)。 每 个 这 样 的 探 针 的 值 表 示 一 个 和 存储 模式 相 比 的 单一 
错误 。 

2. 如 果 探 针 向 量 和 ww 等 于 (1,1, -1 、(-1 -1-1) 或 (-111)， 则 作为 结果 的 输出 
是 基本 记忆 ( -1,1, - 1)。 这 里 再 次 表明 ， 每 个 这 样 的 探 针 表示 一 个 和 存储 模式 相 比 的 单一 
错误 。 E 


伪 状 态 


就 像 式 (14.44) 指 出 的 那样 ， 离 散 Hopfield 网 络 的 权 值 和 矩阵 W 是 对 称 的 。 因 此 W 的 特征 
值 都 是 实数 。 然 而 ， 当 W 很 大 的 时 候 特 征 值 通 常 是 退化 的 (degenerate) ， 这 意味 着 有 几 个 特 
征 向 量 有 同样 的 特征 值 。 通 过 退化 特征 值 联系 的 几 个 特征 向 量 构 成 了 一 个 子 空间 。 此 外 ， 权 
EER W 退化 特征 值 有 等 于 零 的 ， 这 种 情况 下 的 子 空间 叫做 零 空 间 。 零 空间 的 存在 是 由 于 
基本 记忆 的 数量 M 小 于 网 络 中 神经 元 数量 NN 的 事实 。 零 空间 的 出 现 是 Hopfield 网 络 的 内 在 
特性 。 

权 值 矩阵 W 的 特征 分 析 ， 使 得 我 们 对 把 离散 Hopfield 网 络 作为 按 内 容 寻 址 存储 器 持 下 
列 观点 (Aiyer et al. , 1990) ; 

1. 离散 Hopfield 网 络 将 探 针 向 量 投影 到 被 基本 记忆 向 量 扩张 成 的 子 空间 刀 上 ， 从 这 种 意 
义 上 说 ， 它 起 到 向 量 投影 器 的 作用 。 

2. 网 络 固 有 的 动力 学 把 结果 投影 向 量 驱 动 到 单位 超 立 方 体 的 能 量 函 数 最 小 的 一 个 角 点 
处 。 

单位 超 立 方 体 是 维 的 。 扩 张 成 子 空间 .以 的 W 个 基本 记忆 向 量 组 成 由 单位 超 立 方 体 确 
定 的 角 点 表示 的 固定 点 (稳定 状态 ) 的 集合 。 单 位 超 立 方 体 的 其 他 位 于 子 空 间作 内 部 或 附近 的 
角 点 是 潜在 伪 状 态 (spurious states) 的 所 在 位 置 ， 也 称 为 伪 吸 引子 (Amit, 1989 ) 。 伪 状态 表示 
Hopfield 网 络 中 不 同 于 网 络 基本 记忆 的 其 他 稳定 状态 。 

因此 ， 在 设计 作为 按 内 容 寻 址 存储 器 的 Hopfield 网 络 过程 中 ， 我 们 面临 着 对 两 个 矛盾 需求 
的 权衡 ，(1) 需 要 在 状态 空间 中 保持 基本 记忆 向 量 作 为 国定 点 ，(2) 希 望 有 少量 的 伪 状 态 。 


Hopfield 网 络 的 存储 容量 


不 幸 的 是 ，Hopfield 网 络 的 基本 记忆 不 总 是 稳定 的 。 而 且 ， 可 能 出 现 由 伪 状 态 表 征 的 不 
同 于 基本 记忆 的 其 他 稳定 状态 。 这 两 个 现象 倾向 于 降低 作为 按 内 容 寻 址 存储 器 的 Hopfield 网 
络 的 效率 。 在 这 里 我 们 探索 一 下 第 一 个 现象 。 

令 探 针 等 于 作用 于 网 络 上 的 基本 记忆 中 的 一 个 &,。 然 后 ， 为 了 一 般 性 允许 使 用 自 反 馈 
并 设 定 零 偏 置 ， 我们 发 现 使 用 式 (14.41)， 则 神经 元 j 的 诱导 局 部 域 为 : 





FREE F 507 





u% = Ds = i Di. Di. Su: K Db Dk (14.47) 


式 (14.47) 右 端 第 一 项 只 是 基本 记忆 &, 的 第 j 个 元 素 ; 现在 我 们 可 以 看 出 比例 因子 UN Att 
么 被 引入 式 (14.41) 中 突 触 权 值 wi 的 定义 中 。 因 此 这 一 项 可 以 被 看 作 y 期 望 中 的 “信号 ?成 
分 。 式 (14.47) 右 端 第 二 项 是 在 被 测 基本 记忆 ©, 的 元 素 和 其 他 基本 记忆 所 的 元 素 之 间 的 “ 串 
音 ”(crosstalk) 的 结果 。 因 而 这 第 二 项 可 以 被 看 作 v 的 "噪声 ”成 分 。 因 此 我 们 有 了 和 通信 理论 
中 典型 的 * 带 噪声 信号 检测 问题 "类 似 的 情景 (Haykin,1994b ) o 

我 们 假设 基本 记忆 是 随机 的 和 作为 MN 个 Bemoulli 实验 序列 生成 的 。 那 么 式 (14.47) 中 
的 噪声 项 构成 N(M -1) 个 取 值 为 + 1 的 独立 随机 变量 的 求 和 除 以 N。 这 正 是 使 用 概率 论 中 
的 中 心 极限 定理 的 情形 。 中 心 极 限定 理 陈述 如 下 (Feller,1968) : 

令 |X| 为 同 分 布 的 互相 独立 随机 变量 序列 。 假 设 X, 具有 均值 eA, A Y=X,+ 

Xite +X,0 MAY nn 趋向 无 限时 ， 求 和 随机 变量 了 的 概率 分 布 趋 于 Gaus 分 布 。 


因此 ， 通 过 在 式 (14.47) 中 噪声 项 上 采用 中 心 极限 定理 ， 我 们 发 现 噪 声 是 渐 近 的 Gauss 分 
布 。 构 成 等 式 中 噪声 项 的 这 NM -了 1) 个 随机 变量 中 的 每 一 个 都 有 均值 0 和 方差 /N*。 因 而 ， 
推 知 高 斯 分 布 的 统计 学 性 质 为 

。 均值 零 

。 方差 等 于 (CM - 1)/N 

信号 成 分 ,等 于 值 + 1 或 -1 的 概率 相等 ， 并 因此 有 均值 0 和 方差 1。 所 以 信 骂 比 
(signal-to-noise ratio) 定 义 为 


信号 方 1 N 4 
p= Bese = =(M-DIN=™M 对 于 很 大 的 M (14.48) 


基本 记忆 上 WR 4A 4 pM RARE. MWE, AEAEE M 提供 
直接 度量 网 络 存储 容量 (storage capacity ) 的 方法 。 因 此 ， 只 要 网 络 存储 容量 不 超载 ， 也 就 是 说 
基本 记忆 数量 M 比 网 络 中 神经 元 数量 N 要 小 ， 由 式 (14.48) 可 得 基本 记忆 从 概率 意义 上 是 稳 
定 的 。 

信 品 比 的 倒数 ， 也 就 是 





a= M (14.49) 


称 为 负载 参数 (load parameter)。 统 计 物 理学 的 考虑 显示 出 Hopfield 网 络 的 记忆 检索 的 质量 随 
负载 参数 a 的 增加 而 恶化 ， 并 且 在 恪 界 值 a。 = 0.14 处 崩溃 (Amit, 1989; Müller and Reinhardt, 
1990)。 这 一 临界 值 与 Hopfield(1982) 的 估计 相符 ， 其 中 作为 计算 机 模拟 的 结果 报告 0.15 N 个 
状态 可 以 在 错误 变 得 严重 之 前 同时 被 检索 出 。 

由 于 a =0.14， 我 们 从 式 (14.48) 发 现 信 品 比 的 交界 值 p. ~7, 或 者 等 价 的 8.45 分 贝 。 
至 于 信 品 比 低 于 这 一 临界 值 ， 则 记忆 检索 崩溃 。 

临界 值 M, =aN=0.14N (14.50) 
定义 检索 的 容错 存储 容量 。 为 了 确定 不 带 错误 的 存储 容量 ,我们 必须 使 用 下 面 描述 的 错误 概 
率 定义 的 更 严格 准则 。 

令 探 针 Seve = 6, 的 第 j 位 为 符号 1, ERE E = 1。 那 么 检索 时 第 j 位 出 错 的 条 件 概 率 


[| 











508 #14% 











695 








由 图 14-15 中 的 阴影 区 域 定义 。 这 一 曲线 下 的 其 余 区 域 为 探 针 第 j 位 正确 恢复 的 条 件 概率 。 
使 用 熟知 的 高 斯 分 布 公式 ， 后 一 条 件 概率 由 下 式 给 出 : 


1 w 
Pv, Olė; =+1) = | 
we mpap Lira 


由 于 所, 置 为 +1， 并 且 式 (14.47) 中 噪声 项 的 均值 等 于 零 ， 由 此 推出 随机 变量 V 的 均值 为 
上 =1, 方 差 为 o = (M -1)/NW。 从 通常 用 于 涉及 高 斯 分 布 的 计算 的 误差 函数 定义 ， 我 们 有 


ofly) = 声 de (14,52) 
T 


p|- O) ay (14.51) 





其 中 y 为 定义 积分 上 限 的 变量 。 现 在 通过 误差 函数 把 式 (14.51) 改 写成 


P; > 018, =+1)= Hfi +en{,/2) ] (14.53) 


其 中 6 是 式 (14.48) 定 义 的 信 品 比 ， 我 们 可 以 简化 正确 恢复 基本 记忆 第 j 位 的 条 件 概率 的 表 
达 式 。 每 个 基本 记忆 包含 n 位 。 同 时 ， 基 本 记 亿 通 常 是 等 概率 的 。 因 此 稳定 模式 的 概率 定 
义 为 


Pa, = (P > 01 &; =+1)" (14.54) 
我 们 可 以 使 用 这 一 概率 来 构成 Hopfield 网 络 容 量 的 表达 式 。 具 体 地 ， 我 们 定义 几乎 不 带 错 误 
的 存储 容量 1 .作为 网 络 中 能 够 存储 的 最 大 基本 记忆 数量 ， 并 且 强 调 它们 中 的 绝 大 部 分 能 
被 正确 检索 。 在 习题 14.8 中 证 明 由 这 个 存储 容量 的 定义 得 到 公式 


N 
Ma = Jog N (14.55) 


其 中 log, 表示 自然 对 数 。 








图 14-15 位 出 错 的 条 件 概率 ， 假 设 神经 元 7 的 诱导 局 部 域 为 高 斯 分 布 
概率 密度 函数 f(y, Pin 了 表示 随机 变量 ，v 表示 它 的 实现 


图 14- 16 画 出 式 (14.50) 定 义 的 带 错 误 存储 容量 和 式 (14.55) 定 义 的 几乎 不 带 错 误 存储 容 
量 两 者 对 于 网 络 大 小 N 的 关系 图 形 。 从 该 图 中 我 们 注意 以 下 两 点 : 

。 Hopfield 网 络 的 存储 容量 本 质 上 与 网 络 大 小 N 成 线性 关系 。 

。 Hopfield 网 络 的 主要 局 限 在 于 ， 为 了 基本 记忆 的 可 恢复 性 ， 它 的 存储 容量 必须 维持 很 


小 16] 
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图 14-16 Hopfield 网 络 规模 和 它 的 两 种 网 络 容量 的 关系 图 : 
带 错 误 和 几乎 不 带 错误 的 


14.8 计算 机 实验 I 


这 一 节 中 我 们 用 计算 机 实验 来 说 明 作 为 按 内 容 寻 址 存储 的 离散 Hopfield 网 络 的 性 能 。 实 
验 中 使 用 的 网 络 包 含 N = 120 个 神经 元 ， 因此 有 M -N = 12 280 个 突 触 权 值 。 它 被 训练 用 于 
恢复 图 14- 17 中 的 8 个 数字 的 黑白 图 样 ， 每 个 图 样 有 120 个 象 素 (图 元 素 ) 并 特别 设计 以 产生 
良好 的 性 能 (Lippmann,1987 )。 在 网 络 的 输入 中 设 定 用 值 + 1 表示 黑 象 素 ，- 1 表示 白 象 素 。 
在 Hopfield 网 络 的 存储 (学 习 ) 阶 段 ， 图 14-17 中 的 8 个 图 样 被 用 作 基 本 记忆 使 用 式 (14.43) 生 
BOS AEE ME W。 网 络 操作 的 检索 阶段 像 表 14-2 中 说 明 的 那样 异步 进行 。 

在 实验 恢复 部 分 的 第 一 阶段 ， 基 本 记忆 被 提交 给 网 络 ， 检 验 从 帘 触 权 值 矩阵 存储 的 信 
息 中 正确 恢复 它们 的 能 力 。 每 一 种 情况 下 ， 和 希望 得 到 的 图 样 都 在 一 次 迭代 之 后 由 网 络 生 
成 了 。 

下 一 步 ， 为 了 验证 Hopfield 网 络 的 纠 错 能 力 ， 通 过 使 用 0.25 的 概率 随机 地 和 独立 地 从 
+1 到 -1 反 转 每 一 个 象 素 ， 并 反 过 来 进行 ,这样 随机 扭曲 一 个 感 兴趣 的 图 样 ， 然 后 使 用 这 
个 被 破坏 的 图 样 作为 网 络 的 探 针 。 对 数字 3 的 实验 结果 如 图 14- 18 所 示 。 图 中 上 部 分 表示 数 
字 3 的 被 破坏 版 本 ， 也 就 是 在 时 刻 零 作用 在 网 络 上 的 图 样 。 网 络 在 5 次 、10 次 、15 次 、20 
次 、25 次 、30 次 和 35 次 迭代 之 后 生成 的 图 样 在 图 中 其 余部 分 给 出 。 随 着 迭代 次 数 的 增加 ， 
我 们 看 到 网 络 输出 和 数字 3 的 类 同 之 处 逐步 提高 。 事 实 上， 在 35 次 迭代 之 后 网 络 已 收敛 在 
数字 3 的 准确 形式 。 

理论 上 对 每 个 被 破坏 图 样 因为 hopfield 网 络 中 有 120 个 神经 元 的 四 分 之 一 改变 状态 ， 所 
以 检索 所 需 和 迭代 数量 平均 值 为 39。 在 我 们 的 实验 中 ， 对 不 同 图 样 从 它们 被 破坏 形式 进行 检 
索 所 需 和 迭代 数量 如 下 : 
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图 14-17 用 于 Hopfield 网 络 计 算 机 实验 的 (人 工 ) 图 样 集 








原始 的 





图 14-18 损坏 图 样 3 的 正确 恢复 
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图 样 检索 所 需 图 样 数量 
0 34 
1 32 
2 26 
3 35 
4 25 
6 37 
E” 32 
9 26 





检索 所 需 和 迭代 次 数 在 8 个 图 样 上 平均 所 得 平均 值 大 约 是 31， 这 表明 Hopfield 网 络 像 预 期 
的 那样 运转 。 

Hopfield 网 络 固有 的 问题 出 现在 一 个 基本 记忆 的 被 破坏 版 本 提交 给 网 络 的 时 候 ， 然 后 随 
着 网 络 的 运行 收敛 在 一 个 错误 的 基本 记忆 上 。 这 一 切 在 图 14- 19 中 说 明 : 其 中 提交 给 网 络 的 
是 被 破坏 图 样 “2"， 但 是 在 47 次 选 代 之 后 网 络 收敛 在 基本 记忆 “6” 上 了 。 





42 最 终 (47) 
图 14-19 损坏 图 样 2 的 错误 恢复 


就 像 前 面 提 到 的 那样 ， 在 Hopfield 网 络 中 还 出 现 另外 一 个 问题 : 伪 状 态 的 存在 。 图 14- 
20( 视 为 14x8 的 网 络 状态 矩阵 ) 给 出 在 43 097 次 对 随机 选择 的 数字 按 0.25 的 概率 翻转 1 位 被 
破坏 的 检验 中 发 现 的 108 种 伪 吸 引子 。 伪 状态 可 以 分 组 如 下 (Amit,1989 ): 


Pi 
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1. 反 基本 记忆 。 这 些 伪 状态 是 网 络 基本 记忆 的 反 转 ( 即 负 的 ) 版 本 ; 例如 ， 参 考 图 14-20 
中 位 办 1 x 1 处 的 状态 ， 它 表示 图 14-17 中 数字 6 的 负数 。 为 了 解释 这 类 伪 状 态 ， 我 们 注意 
EERS 已 在 神经 元 状态 反 转 的 时 候 保 持 它 的 值 不 变 ， 从 这 种 意义 上 说 它 是 对 称 的 ( 即 对 于 
所 有 的 i, ARRAS x; 用 -和 替换 )。 因 此 ， 如 果 基 本 记忆 & 对 应 能 量 等 值 线 的 某 一 特定 局 部 极 
小 值 ， 同 样 该 最 小 值 也 对 应 -总 。 如 果 被 恢复 模式 的 所 有 信息 位 都 被 反 转 的 话 ， 也 就 是 如 果 
可 以 发 现 那些 特定 的 位 即 设计 为 - 1 的 “符号 "位 被 + 1 蔡 换 的 话 ， 则 这 一 符号 反 转 不 会 给 信 
息 恢 复 带 来 问题 。 

2. 混合 状态 。 混 合 (mixture) 伪 状态 是 奇数 个 被 存储 模式 的 线性 组 合 。 例 如 ， 考 虑 状态 

Xi = sgn(&,,; +& + &,1) 

这 是 一 个 三 混合 伪 状 态 。 它 由 三 个 基本 记忆 和 纪 、& ME 通过 多 数 原 则 形成 的 。 对 大 型 网 络 ， 
这 样 的 状态 是 满足 式 (14.45) 的 稳定 条 件 的 。 图 14-20 中 第 6 行 第 4 列 位 置 的 图 样 代表 一 个 由 
以 下 基本 记忆 组 成 的 三 混合 伪 状 态 : & = 负 的 数字 1, & = M4, & = 数字 9。 

3. 旋转 玻璃 状态 。 这 种 伪 状态 这 样 命名 与 统计 力学 的 旋转 玻璃 模型 类 似 。 旋 转 玻璃 状 
态 由 没有 和 网 络 中 基本 记忆 相互 关联 的 能 量 等 值 线 的 局 部 最 小 值 定义 ; 例如 ， 参 看 图 14-20 
中 第 7 行 第 6 列 处 的 状态 。 


14.9 Cohen-Grossberg 定理 


在 Cohen-Grossberg(1983) ， 给 出 评价 由 如 下 联 立 非 线性 微分 方程 组 描述 的 一 类 神经 网 络 
的 稳定 性 的 一 般 原则 : 


fy = a;(u;)[ b; (u -Xe Pi (u;)],j = 1, N (14.56) 

根据 Cohen-Grossberg 定理 ， 这 类 神经 网 络 容许 定义 一 个 Lyapunov PARK (A Jl 14.13) 
= E=5 > de cipi (u pj (uj) - Df bP (Ada (14.57) 
其 中 AOSACH (14.58) 


为 了 使 式 (14.57) 的 定义 有 效 ， 需 要 下 面条 件 成 立 : 
1. 网 络 的 突 触 权 值 对 称 : 


Cy = G (14.59) 
2.a ( u; HARA ERE: 
a;(u;) > 0 (14.60) 
3. 非 线性 输入 — 输出 函数 满足 单调 性 条 件 : 
PCy) = fou) >0 (14.61) 


现在 ， 我 们 可 以 正式 地 陈述 Cohen-Grossberg 定理 : 


如 果 非 线性 微分 方程 组 (14.56) 满 足 对 称 性 、 非 负 性 和 单调 性 ， 则 由 式 (14.57) 描 述 的 
Lyapunov 函数 E 满足 条 件 
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— H Lyapunov 函数 E 的 基本 属性 具备 ， 系 统 的 全 局 稳定 性 从 Lyapunov 定理 1 推出 。 
Hopfield 模型 作为 Cohen-Grossberg 定理 的 特例 


对 一 个 连续 的 Hopfield 模型 ， 通 过 比较 方程 组 (14.56) 和 方程 组 (14.20) ， 我 们 可 以 得 到 
Hopfield 模型 和 Cohen-Grossberg 定理 之 间 的 对 应 关系 ， 这 种 关系 如 表 14-3 所 示 。 在 式 (14.57) 
中 运用 此 表 ， 就 可 以 得 到 连续 的 Hopfield 模型 的 Lyapunov 函数 


E=-3 D Huelga) + DS (R - 4] ood (14.62) 

其 中 非 线性 激活 函数 pg(:) 由 式 (14.23) 定 义 。 

接 下 来 ， 我 们 得 到 如 下 的 观察 结果 : 

1. plu) = x 

2.| YCv) do = 上 dx = x; 

3 v@ (v)dv = | dx = [iowa 
从 基本 上 说 ， 关 系 式 2 和 3 通过 应 用 x = p(") 得 到 。 这 样 ， 在 式 (14.62) 的 Lyapunov 函数 中 
运用 这 些 观 察 就 可 以 得 到 和 我 们 早先 描述 的 相同 的 结果 ; 参看 式 (14.28)。 然 而 ， 尽 管 p,(v) 
必须 是 输入 2 的 非 减 函数 ， 为 使 式 (14.62) 描 述 的 通用 Lyapunov 函数 成 立 ， 并 不 需要 p; (v) Æ 
BY BA AY 


Cohen-Grossberg 定理 是 有 广泛 应 用 的 神经 动力 学 的 一 个 基本 原理 。 在 下 一 节 我 们 考虑 这 
个 重要 定理 的 另 一 个 应 用 。 


表 14-3 Cohen-Grossberg 定理 和 Hopfield 模型 的 对 应 关系 








Cohen-Grossberg 定理 Hopfield 模型 
u Co; 

a;( u;) 1 

b; (u) ~ (a/R) +h 
Cj ~ Wj 

fi (ui) Pi ( Vi ) 


14.10 盒 中 脑 状态 模型 


在 这 一 节 中 ， 我 们 通过 学 习 盒 中 脑 状 态 (brain-state-in-a-box,BSB ) 模 型 来 继续 联想 记忆 的 
神经 动力 学 的 分 析 。 该 模型 首先 由 Anderson et al,(1977) 描 述 。BSB 模型 基本 上 是 一 个 带 幅 度 
限制 的 正 反馈 系统 ， 该 模型 是 由 一 组 反馈 回 自身 的 高 度 互 连 的 神经 元 组 成 。 模 型 用 内 置 的 正 
反馈 来 放大 输入 模式 ， 直 到 模型 中 的 所 有 神经 元 饱和 。 这 样 ，BSB 模型 可 以 看 作 一 个 分 类 
串 ， 在 该 分 类 器 中 ， 给 定 一 个 模拟 输入 模式 ， 产 生 一 个 由 模型 稳定 状态 描述 的 数字 表示 。 

用 多 表示 对 称 权 值 给 阵 ， 该 矩阵 的 最 大 特征 值 为 正 实 数 。 用 x(0) 表 示 模 型 的 初始 状态 
向 量 ， 代 表 输 入 激活 模式 。 假 定 模 型 中 有 WN 个 神经 元 。 模 型 的 状态 向 量 是 NAW, WHE 
N x N 和 矩阵 。BSB 算法 由 下 面 两 个 方程 完全 定义 : 

y(n) = x(n) + BWx(n) (14.63) 





PEDA F 
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x(n +1) = ọ(y(n)) (14.64) 


其 中 B 是 一 个 称 为 反馈 因子 的 正 的 小 常数 ，x(n) 是 模型 在 时 刻 n 的 状态 向 量 。 图 14-21a 显 
示 式 (14.63) 和 式 (14.64) 的 联合 框图 。 方 框 W 代表 一 个 单 层 线性 神经 网 络 ， 如 图 14-21b 所 


示 。 激 活 函 数 p 是 一 个 作用 在 ”(z) 上 的 分 段 线性 函数 ，7i (ma) 是 向 量 y(n) 的 第 7 个 分 量 ， 


如 下 所 示 ( 看 图 14-22) 


x(n +1) = py(n)) = 


+1 
y(n) 
-1 


M y(n) >+1 


当 -1<y(n)<+l (14.65) [703] 


当 Y(n) <-1 


式 (14.65) 限 制 BSB 模型 的 状态 向 量 处 于 中 心 在 原点 的 一 个 N 维 单位 立方 体 中 。 


反馈 因子 单位 延迟 





权 值 矩阵 非 线性 函数 
a) 


图 14-21 
a) 盒 中 脑 状 态 (BSB ) 模 型 框图 b) 权 值 矩 阵 W 表示 的 线性 联想 器 的 信号 流 图 


算法 如 下 进行 : 一 个 激活 模式 x(0) 
作为 一 个 初始 状态 向 量 输入 BSB 模型 ， 式 
(14.63) 用 来 计算 向 量 yY(0) ， 式 (14.64) 用 
来 截断 y(0)， 获 得 更 新 状态 向 量 x(1)。 
接着 ，x(1) 通 过 (14.63) 和 (14.64) 循 环 得 
到 x(2)。 这 个 过 程 一 直 重 复 直 到 BSB 模 
型 达到 一 个 稳定 状态 ， 该 状态 代表 超 立 方 
体 的 一 个 角 点 。 直 觉 上 ，BSB 模型 的 正 反 
馈 引 起 初始 状态 向 量 x(0) 的 Euclid KE 
( 范 数 ) 随 迭代 次 数 的 增加 而 增加 ， 直 到 它 
撞 到 盒子 (单位 超 立 方 体 ) 的 墙 上 ， 然 后 顺 
着 墙 滑行 ， 最 终 停 在 盒子 的 一 个 稳定 角 点 
上 ， 在 这 里 它 继续 “推进 " 却 不 能 脱离 盒子 
(Kawamoto and Anderson 198$)， 这 就 是 该 
模型 名 字 的 由 来 。 


BSB 模型 的 Lyapunov 函数 


x(n + 1) 


x) 


x(n) 


输出 





xy) 


b) 





图 14-22 BSB 模型 使 用 的 分 段 线性 函数 


重新 定义 BSB 模 型 可 以 作为 由 式 (14.16) 描 述 的 神经 动力 学 模型 的 一 个 特例 (Grossberg， 
1990)。 为 了 看 到 这 一 点 ， 首 先 以 下 述 形 式 重 写 由 式 (14.63) 和 (14.64) 描 述 的 BSB 算法 的 第 j 


个 组 成 部 分 : 














[o] 
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x(n +1) = of Mam(n)), j= 1,2,°,N (14.66) 


系数 ci 由 
cy = 8) + Bu; (14.67) 
定义 ， 其 中 5; 为 Kronecher 5 函数 ， 仅 当 j= i 时 为 1， 其 余 情况 为 0; w ENER WHS ji 
个 元 素 。 式 (14.66) 是 离散 的 时 间 形 式 。 为 了 进一步 处 理 ， 重 新 用 连续 时 间 形 式 写 出 它 的 公 
式 
s(t) == ot) + 9( Son (t)) 12 (14.68) 
其 中 偏 置 1 对 所 有 的 7 都 为 0。 然 而， 为 了 应 用 Cohen-Grossberg 定理 ， 必 须 进一步 把 式 
(14.68) 转 换 成 加 性 模型 的 形式 。 我 们 可 以 通过 引入 一 组 新 变量 
v(t) = IAG) (14.69) 
来 做 到 这 点 。 然 后 ， 通 过 式 (14.67) 中 GHEX, £W 


xj(t) = D7 eg, (t) (14.70) 
相应 地 ， 重 置式 (14.68) 的 模型 为 等 价 形式 
dy -y Dygn = 12 (14.71) 


现在 ,我们 准备 把 Cohen-Grossberg 定理 应 用 到 BSB 模型 上 。 通 过 比较 式 (14.71) 和 
(14.56) ， 得 到 如 表 14-4 所 示 的 BSB 模型 和 Cohen-Grossberg 定理 的 对 应 关系 。 因 此 ， 把 表 
14-4 的 结果 用 于 式 (14.57)， 就 得 到 BSB 模型 的 Lyapunov 函数 


N N N ay 
E=- t 2 Dy cx (4, pv) + >| vg (v) dv (14.72) 


EH g (vw) 是 sigmoid 函数 pg(v) 对 它 的 参数 的 一 阶 导 数 。 最 后 ， 将 式 (14.65)，(14.67) 和 
(14.69) 的 定义 代入 式 (14.72)， 就 能 用 原始 状态 向 量 定义 BSB 模型 的 Lyapunov 函数 如 下 : 











BSS g 
T 
E =- 2 2 Dy ms =- 7* Wx (14.73) 
表 14-4 Cohen-Grossberg 定理 和 BSB 模型 的 对 应 关系 
Cohen-Grossherg 定理 BSB 模型 
a; (uj) 1 
bj(u) =% 
p(w) oly) 


在 14.7 节 中 对 Hopfield 网 络 Lyapunov 函数 的 估计 ， 假 定 模型 的 非 线 性 sigmoid 函数 的 逆 
的 导数 存在 ， 此 条 件 是 通过 用 一 个 双 曲 线 正 切 函 数 来 满足 的 。 相 反 ， 在 BSB 模型 中 ， 当 第 j 
个 神经 元 的 状态 变量 是 + 1 或 - 1 时 ， 这 个 条 件 并 不 满足 。 尽 管 如 此 ，BSB 模型 的 Lyapunov 
函数 能 通过 Cohen-Grossberg 定理 来 估计 ， 从 而 清楚 地 表明 这 个 重要 定理 可 以 普遍 应 用 。 
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BSB 模型 动力 学 


在 由 Golden(1986) 进 行 的 直接 分 析 中 ， 说 明 BSB 模型 实际 是 一 个 梯度 下 降 算 法 ， 使 得 由 
式 (14.73) 所 定义 的 能 量 函 数 E 达到 最 小 。 然 而 BSB 模型 的 这 个 重要 性 质 要 假设 权 值 矩阵 W 
满足 下 面 两 个 条 件 : 

。 SUB W 是 对 称 的 ， 即 Www, 

。 RUA W 是 半 正 定 的 ; 也 就 是 说 ， 关 于 WE, RNA SO, HH Ae 

W 的 最 小 特征 值 。 
这 样 ， 当 在 时 间 n +1 时 的 状态 向 量 x(n + 1) 与 在 时 间 n 的 状态 向 量 x(n) 不 同时 ，BSB 模型 
的 能 量 函 数 下 随 ”( 和 迭代 次 数 ) 的 增加 而 减 小 。 更 进一步 ， 能 量 函 数 E 的 最 小 点 定义 BSB BE 
型 的 平衡 状态 ， 模 型 由 
x(n +1) = x(n) 
表征 。 换 名 话说 ， 像 Hopfield 模型 一 样 ，BSB 模型 是 一 个 能 量 最 小 化 网 络 。 

BSB 模型 的 平衡 状态 由 单位 超 立 方 体 的 特定 的 角 点 和 它 的 原点 定义 。 在 后 一 种 情况 (在 
原点 )， 状 态 向 量 的 任何 波动 ， 无 论 是 多 么 小 ， 都 被 模型 中 的 正 反 馈 放 大 ， 因 此 引起 模型 从 
原点 向 稳定 状态 漂移 ; 换 名 话说， 原点 是 一 个 鞍点 。 对 超 立 方 体 来 说 ， 要 使 它 的 每 个 角 点 作 
为 BSB 模型 的 平衡 状态 ， 权 值 甜 阵 W 必须 满足 第 三 个 条 件 (Greenberg 1988): 

。 BUR W 是 对 角 优 势 的 (dominant) ， 其 含义 是 

wi = 2) | ws | 对 所 有 的 7 = 1,2,…,N (14.74) 


其 中 mE WISE j TIER. 

为 了 使 平衡 状态 x 稳定 ， 也 就 是 为 了 使 单位 超 立 方 体 的 一 个 特定 角 是 一 个 固定 点 吸引 子 
(attractor) ， 在 单位 立方 体 中 必须 有 一 个 吸引 倪 N(x)， 使 得 对 N(x) 中 的 所 有 初始 状态 向 量 
x(0)，BSB 模型 都 收敛 于 x。 为 了 使 单位 超 立 方 体 的 每 一 个 角 点 是 一 个 可 能 的 点 吸引 子 ， 权 
值 矩 阵 必 须 满 足 第 四 个 条 件 (Greenberg，1988) ; 

。 WER ARB, RBH 

we D1 wl+a MF = 1,2,…,N (14.75) 


其 中 a 是 一 个 正 的 常数 。 

这 里 讨论 的 重点 是 : WR BSB 模型 的 权 值 矩 阵 W 只 是 对 称 的 和 正 半 定 的 ， 单 位 立方 体 
中 只 有 一 些 (不 是 所 有 ) 角 点 是 点 吸引 子 。 为 了 使 单位 立方 体 中 的 所 有 角 点 是 潜在 的 点 吸引 
F, PER W 也 必须 满足 式 (14.75) ，(14.75) 当然 蕴 含 式 (14.74)。 


RK 


BSB RA —T BARA, REA AUER ER AEN SE RIBS 
吸引 子 ， 会 把 状态 空间 划分 为 相应 的 明确 定义 的 区 域 。 因 此 ，BSB 模型 可 以 用 作 一 种 无 监督 
的 从 类 算法 ， 其 中 单位 超 立 方 体 的 每 一 个 稳定 角 点 代表 相关 数据 的 一 个 “ 聚 类 ”。 由 正 反馈 所 
提供 的 自 放大 (符合 在 第 8 章 描 述 的 自 组 织 规则 1) 是 聚 类 性 质 的 一 个 重要 成 分 。 

Anderson et al. (1990 b) 描 述 用 BSB 模型 聚 类 从 而 识别 从 不 同 发 射 器 发 射 的 雷达 信和 号。 在 
这 个 应 用 中 ， 作 为 BSB 模型 运行 基础 的 权 值 矩 阵 W 用 第 2 章 描述 的 带 误差 修正 学 习 的 线性 
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联想 器 (联想 记忆 ) 进 行 学 习 。 特 别 地 ， 假 设 信息 用 一 组 K 个 训练 向 量 表示 ， 这 些 向 量 同 它 
们 自己 的 联系 如 下 : 


“>x, k=1,2,,K (14.76) 
以 随机 方式 选 定 训练 向 量 x 。 权 值 矩 阵 W 按照 误差 修正 算法 (参看 习题 13.9) 
AW = N(x; - Wx,)x; (14.77) 
增加 ， 其 中 站 是 学 习 率 参 数 。 学 习 刺 激 集 x ,x ,… ,xx 的 目的 是 使 线性 联想 器 工作 如 下 : 
Wx, = X,,4 = 1,2,°°,K (14.78) 


式 (14.77) 描 述 的 误差 修正 算法 在 最 小 均 方 误差 的 意义 下 接近 式 (14.78) 的 理想 条 件 。 这 个 学 
习 过 程 的 最 终 效果 是 使 线性 联想 器 产生 一 组 特征 向 量 (由 训练 向 量 定义 ) ， 其 特征 值 等 于 1。 

为 了 实施 雷达 (信号 ) 限 类 ，BSB 模型 用 带 误差 修正 学 习 的 线性 联想 器 来 构造 权 和 矩阵 W, 

并 完成 下 面 的 计算 (Anderson et al., 1990): 
x(n +1) = o(yx(n) + BWx(n) +Sx(0)) (14.79) 
此 式 和 式 (14.63) 和 式 (14.64) 所 描述 的 BSB 算法 有 细微 的 差别 。 差 别 在 两 方面 : 
。 在 第 一 项 yx(n) 中 的 衰减 常数 7 使 当前 状态 轻微 衰减 。 假 定 y 是 一 个 比 1 小 的 正常 
数 ， 误 差 最 终 衰减 到 0。 
。 第 三 项 5x(0) 是 为 了 保持 初始 状态 向 量 x(0) 一 直 出 现 ; 它 有 限制 BSB 模型 的 可 能 状 
态 的 作用 。 

BSB 模型 的 重复 迭代 导致 由 具有 最 大 特征 值 的 权 值 矩阵 W 的 特征 向 量 所 支配 的 行动 。 
因此 ， 线 性 联想 器 学 会 了 向 量 x, , x。 ,… ,xx 。BSB 模型 的 聚 类 能 力 来 源 于 : 信号 相关 的 特征 
向 量 与 大 的 特征 值 相 对 应 ， 在 模型 中 由 正 反 馈 进行 放 大 ， 因 此 在 大 量 迭 代 之 后 便 支配 模型 的 
状态 。 另 一 方面 ， 噪 声 相关 的 特征 向 量 经 常 与 小 的 特征 值 相 对 应 。 因 此 ， 对 BSB 模型 的 状 
态 有 一 个 逐渐 减 小 的 影响 ， 只 要 接受 的 信 噪 比 足够 高 。 

在 一 个 雷达 监视 环境 中 ， 环 境 中 发 射 器 运行 的 细节 描述 是 未 知 的 。 在 几 分 之 一 秒 内 接受 
成 干 上 万 的 雷达 脉冲 进行 处 理 。 因 此 不 缺 数 据 ， 难 点 是 怎样 使 数据 有 意义 。BSB 模型 利用 其 
内 在 的 聚 类 属性 通过 学 习 雷 达 环 境 的 微波 结构 来 提供 帮助 。 聚 类 形成 在 BSB 模型 的 点 吸引 
子 周围 ( 即 单位 超 立 方 体 的 稳定 角 点 ) ， 每 个 点 吸引 子 代表 一 个 特定 的 发 射 器 。 这 样 ，BSB 模 
型 就 可 以 识别 一 个 特定 发 射 器 所 产生 的 脉冲 。 


14.11 计算 机 实验 


对 于 一 个 包含 两 个 神经 元 的 BSB 模型 ， 图 14-23 给 出 试验 的 结果 。2 x 2 权 值 矩阵 W EXN 
| 0.035 -0.005 
-0.005 0.035 
此 权 和 矩阵 是 对 称 正定 的 ， 并 满足 式 (14.75)。 
图 14-23 的 四 个 不 同 部 分 分 别 对 应 初始 状态 x(0) 的 四 种 不 同 的 赋值 ， 如 下 所 示 : 
(a)x(0) = [0.1 0.2]7 
(b)x(0) =[-0.2 0.3]7 
(c)x(0) =[-0.8 -0.4]7 
(d)x(0) = [0.6 0.1]7 
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图 中 阴影 区 域 是 标志 模型 的 四 个 吸引 盆 。 该 图 清晰 地 阐明 当 模型 的 初始 状态 在 一 个 特定 
的 吸引 盆 时 ， 模 型 固有 动力 学 驱使 权 值 矩阵 W(n) 随 着 迭代 次 数 n 的 增加 而 增加 ， 直 到 网 络 
状态 x(n) 终 止 在 一 个 固定 点 吸引 子 ( 即 一 个 2x2 正方 形 的 角 点 )， 此 吸引 子 属于 那个 吸引 
贫 。 特 别 有 趣 的 是 图 14-23d 中 的 轨迹 : 初始 条 件 x(0) 在 第 一 象限 ， 然 而 轨迹 在 第 四 象限 终 
止 于 角 点 ( + 1, - 1) ， 因 为 那 就 是 合适 的 吸引 盆 中 点 吸引 子 所 在 的 地 方 。 


(+1,+1) (-1,+1) 





(-1,+1) (+1,+1) 





























(+1,+1)  (-1,+1) 


























(+1,-1) (-1,-1) 


c) 


图 14-23 BSB 模型 计算 机 实验 的 轨 线 ; 从 a) 到 d) 的 结果 对 应 于 不 同 初始 条 件 


14.12 奇异 吸引 子 和 混沌 

到 目前 为 止 ， 在 我 们 讨论 的 神经 动力 学 中 ,集中 于 由 固定 点 吸引 子 所 刻画 的 非 线性 动力 
学 系统 的 行为 。 在 这 一 节 考 虑 一 种 称 为 奇异 吸引 子 的 另 一 类 吸引 子 ， 它 们 刻画 阶 数 高 于 2 的 
某 种 非 线性 动力 学 系统 。 

一 个 奇异 吸引 子 表现 出 高 度 复 杂 的 混乱 行为 。 使 研究 奇异 吸引 子 和 混沌 特别 有 趣 的 是 : 
因为 系统 运行 是 由 固定 规则 所 支配 的 ， 所 以 系统 是 确定 的 。 然 而 这 样 一 个 只 有 少数 几 个 自由 
度 的 系统 却 有 如 此 复杂 的 行为 以 至 于 它 看 起 来 是 随机 的 。 确 实 ， 随 机 性 在 以 下 意义 上 是 基本 
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的 : 一 个 混沌 (chaos) 时 间 序 列 的 二 阶 统计 性 似乎 显示 它 是 随机 的 。 然 而 ， 不 像 一 个 真正 的 
随机 现象 ， 一 个 混沌 系统 所 展示 的 随机 性 并 不 随 着 收集 信息 的 增加 而 减少 。 原 则 上 ， 一 个 混 
沌 系统 未 来 的 行为 完全 由 它 的 过 去 所 决定 。 但 实际 上 ， 初 始 条 件 选择 的 任何 不 确定 性 ， 无 论 
是 多 么 小 ， 随 着 时 间 将 指数 增加 。 这 样 即使 一 个 混沌 系统 的 动态 行为 在 短期 内 可 以 预测 ， 却 
不 可 能 预测 系统 的 长 期 行为 。 因 此 ， 一 个 混沌 时 间 序 列表 现 这 样 一 种 矛盾 : 它 的 产生 是 由 一 
个 确定 动态 系统 支配 的 ， 然 而 它 看 起 来 却 是 随机 的 。 一 个 混沌 现象 的 这 种 属性 最 初 是 由 
Lorenz 在 发 现 一 种 吸引 子 时 所 强调 的 ， 并 以 他 的 名 字 命 名 (Lorenz,1963)。 

在 一 个 非 线性 动态 系统 中 ， 当 吸引 子 中 具有 相近 初始 条 件 的 不 同 轨迹 随 着 时 间 增 加 而 逐 
渐 分 离 时 ， 我 们 就 说 系统 具有 一 个 奇异 吸引 子 (strange attractor) ， 并 且说 系统 本 身 是 混沌 的 
(cehaotie)。 换 名 话说 ， 使 得 一 个 吸引 子 奇异 的 本 质 属性 是 对 初始 条 件 的 敏感 依赖 。 这 里 ， 敏 
感性 意味 着 如 果 两 个 相同 的 非 线性 系统 开始 于 稍 有 差别 的 初始 条 件 ， 嗓 分 别 为 x 和 x+e,， 这 
里 是 一 个 非常 小 的 量 ， 它 们 的 动态 状态 在 状态 空间 中 会 相互 散 开 ， 并 且 它 们 的 间隔 平均 而 
言 将 按 指数 增加 。 
混沌 动力 学 的 不 变 特征 

两 个 主要 特征 分 数 维 数 (fractal dimensions) 和 Lyapunov 指数 ， 已 经 成 为 一 种 混沌 过 程 的 分 
类 器 。 分 数 维 刻画 一 个 奇异 吸引 子 的 几何 结构 。 术 语 “ 分 数 "(fractal) 是 由 Mandelbrot(1982) 提 
出 的 。 不 像 整 数 维 数 (如 二 维 平面 、 三 维 空间 ) ， 分 数 维 数 并 不 是 整数 。 对 于 Lyapunov 指数 ， 
它们 描述 吸引 子 的 轨道 如 何 随 动态 系统 的 演化 而 运动 。 这 两 个 混沌 动态 系统 的 不 变 特 征 将 在 
下 面 讨论 。 术 语 “ 不 变 ” 表 明 : 一 个 混沌 过 程 的 分 数 维 数 和 Lyapunov 指数 在 该 过 程 坐标 系统 的 
光滑 非 线性 变换 下 保持 不 变 (Abarbanal 1996) 。 


分 数 维 数 


考虑 一 个 奇异 吸引 子 ， 它 是 d 维 状态 空间 的 动力 学 由 
x(n +1) = F(x(n)),n = 0,1,2,… (14.80) 
描述 ， 它 是 式 (14.2) 的 离散 时 间 形 式 。 通 过 设置 t= nAt: ， 这 很 容易 看 出 ， 其 中 At 是 采样 周 
期 。 假 定 At 足够 小 ， 我 们 可 以 相应 地 设置 
dala) = [x(nAt + At) - x(nAt)] 
这 样 ， 我 们 可 以 得 到 式 (14.2) 的 离散 时 间 形 式 如 下 : 
EEIN + At) —x(nAt)] = F(x(nAt)) ”对 很 小 的 At 
为 了 表示 方便 ， 令 At = 1 并 对 项 进行 重新 排列 ， 得 到 
x(n +1) = x(n) + F(x(n)) 
CERES Mk (14. 80) KIER, RA ah Bre Me A EFO) 
回 到 式 (14.80)， 假 定 我 们 在 吸引 子 的 轨道 上 或 附近 的 一 个 位 置 y 处 构造 半径 为 > 的 小 
球 。 那 么 ， 我 们 对 吸引 子 可 以 定义 点 的 自然 分 布 (natural distribution) 4h F : 
ply) = lim a Daly ~ x(n)) (14.81) 
EF (C) d 4E delta 函数 ，N 是 数据 点 的 个 数 。 注 意 N 在 用 法 上 的 变化 。 自 然 分 布 p(y) 对 
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一 个 奇异 吸引 子 扮演 的 角色 就 像 一 个 概率 密度 函数 对 一 个 随机 变量 那样 。 相 应 地 ， 我 们 可 以 
随 动态 系统 演化 定义 函数 f(y) 的 不 变量 /为 多 重 积分 


f= | Aay (14.82) 


一 个 感 兴趣 的 函数 f(y) 是 使 我 们 能 衡量 当 小 球 半 径 + 趋向 于 0 时 小 球 内 的 点 的 数目 如 何 变 
化 。 注 意 d 维 球 所 占 的 空间 体积 正比 于 ”， 因 此 ， 通 过 观察 在 状态 空间 中 吸引 子 上 的 点 的 密 
度 在 小 距离 范围 内 如 何 变化 ， 我 们 可 以 了 解吸 引子 的 维 数 。 

球 的 中 心 y 和 在 时 刻 n 时 的 点 x(n) 之 间 的 Euclid 距离 是 上 y-x(n) ||. A, wR lly 
~x(n) || <r， 或 等 价 地 r- ‖y- xz) || >0， 则 点 x(n) 在 半径 为 r 的 球 内 。 因 此 ， 在 所 描 
述 情况 下 的 函数 f(x) 可 以 写成 一 般 形式 


fod = (yH XC- ly- I)" (14.83) 
其 中 gq 是 一 个 整数 ，6(.) 是 由 一 
l,z > 0 
olz) = lo. <0 


定义 的 Heaviside 4 3, 
将 式 (14.81) 和 (14.83) 代 入 (14.82) ， 得 到 一 个 新 的 依赖 于 g Mr 的 函数 ， 所 示 : 


Car) =| (qe alr - y= xe) D) (4 Xay- x(n))) dy 
因此 ， 利 用 dela 函数 的 第 选 (siting) 性 质 ， 也 就 是 对 某 些 函 数 OMAR 
| aay - x(n))ay = g(x(n)) 
并 交换 求 和 顺序 ， 可 以 重新 定义 函数 a ANT: 
cun = d(x m yr lx) -x 1) (14.84) 


函数 C(g,r) 被 称 为 相关 函数 (corelation fonction)" ， 它 用 来 度量 吸引 子 上 两 点 x(n) x(k) 
以 距离 r 隔 开 的 概率 。 在 式 (14.84) 的 定义 中 数据 点 的 总 数 N 假定 很 大 。 
相关 函数 C(g,r) 是 吸引 子 本 身 的 不 变量 。 虽 然 如 此 ， 在 实际 中 我 们 集中 在 r 很 小 时 
C(gq,r) 的 行为 。 这 个 极限 行为 由 
C(gsr) ~ rr (14.85) 
描述 ， 其 中 D, 称 为 吸引 子 的 分 数 维 数 ， 假 定 它 是 存在 的 。 在 式 (14.85) 两 边 取 对 数 ， 得 到 
D, 的 正式 定义 


D, = lim 186g") (14.86) 
T oq- Diogr 


然而 ， 由 于 通常 仅 有 有 限 个 数据 点 ， 半 径 + 必须 恰好 足够 小 ， 使 得 有 足够 的 点 落 在 球 内 。 对 
一 个 给 定 的 4， 可 以 根据 Clg, r MEJ logr 的 线性 函数 的 斜率 确定 分 数 维 数 D, o 

对 g =2， 分 数 维 数 D, 的 定义 具有 一 个 适宜 于 可 靠 计算 的 简单 形式 。 所 得 维 数 D, 被 称 
为 吸引 子 的 相关 维 数 (correlation dimension) ( Grassberger and Procaccia, 1983). +H% 4k SUR BR Hl 
有 动态 系统 的 复杂 性 ， 并 且 限 定 描述 该 系统 所 需 的 自由 度 。 








712 








522 # 14 È 











713 











Lyapunov 指数 


Lyapunov 指数 是 描述 吸引 子 未 来 状态 不 确定 性 的 统计 量 。 更 具体 地 ， 它 们 量化 在 移 向 吸引 
子 时 邻近 轨道 相互 分 离 的 指数 速度 。 假 定 x(0) 是 初始 条 件 ，{x(z),nm = 0,12…:} 是 相应 的 轨 
道 。 考 虑 从 初始 条 件 x(0) 向 和 轨道 相 切 的 向 量 yY(0) 方 向 上 的 一 个 无 穷 小 偏 移 ， 该 向 量 的 演化 
确定 被 扰动 轨道 {y(n),n =0,1,2,…} 从 未 受 扰 动 轨道 1x(n),n =0,1,2…} 的 无 穷 小 偏 移 的 演化 。 
特别 地 ， 比 值 y(n )/ | y(n) 定义 轨道 从 x(n) 的 无 穷 小 偏 移 。 当 y(n) > Il yO) Il mt, E 
值 y(n)/ | yO) || 为 无 穷 小 偏 移 的 增长 因子 ; lly) Il < I y(0) ll 时 ， 它 为 无 穷 小 偏 移 的 缩 
减 因子 。 对 初始 条 件 x(0) 和 初始 偏 移 a = y(0)/ || y(0) ||, Lyapunov 指数 被 定义 为 : 


Xx(0),0) = lim Eog 26n 1L) (14.87) 
一 个 d 维 混沌 过 程 共有 d 个 Lyapunov 指数 ， 可 为 正 、 负 或 0。 正 的 Lyapunov 指数 说 明 状态 空 
间 中 一 轨道 的 不 稳定 性 。 换 句 话 说 ， 正 的 Lyapunov 指数 导致 混沌 过 程 对 初始 条 件 的 敏感 性 。 
另 一 方面 ， 负 的 Lyapunov 指数 控制 轨道 中 瞬 态 的 衰减 。 一 个 为 0 的 Lyapunov 指数 表明 用 以 产 
生 混 沌 的 固有 的 动态 系统 可 用 一 个 联 立 的 非 线性 微分 方程 组 描述 ， 即 是 说 该 混沌 过 程 是 一 个 
流 。 在 d 维 状 态 空间 中 体积 依 epl L(A. + +e + hy)) 变 化 ， 这 里 工 是 未 来 的 时 间 步 数 。 因 
此 对 一 个 耗 散 过 程 ， 所 有 Lyapunov 指数 之 和 必须 是 负数 。 这 是 状态 空间 的 体积 要 随时 间 增 加 
而 缩减 所 必须 满足 的 条 件 ， 它 是 物理 实现 的 一 个 要 求 。 


Lyapunov 维 数 


给 定 Lyapunov HA, ,和 ，,… ,和 ，Kaplan and Yorke(1979) 提 出 了 一 个 奇异 吸引 子 的 Lyapunov 
维 数 定义 如 下 : 





D, = K+—2 (14.88) 
其 中 天 是 满足 下 列 两 个 条 件 的 整数 : 
ZN > 0 和 DX <0 
通常 ，Lyapunov 维 数 D, 和 相关 维 数 D, 的 大 小 大 体 相 同 。 这 是 混沌 过 程 的 一 个 重要 属性 。 也 
就 是 说 ， 虽 然 Lyapunov 维 数 和 相关 维 数 是 用 完全 不 同 的 方式 定义 ， 但 对 一 个 奇异 吸引 子 ， 它 
们 的 值 是 非常 接近 的 。 
混沌 过 程 的 定义 
在 整个 这 一 节 中 我 们 说 到 了 混沌 过 程 ， 但 没有 正式 定义 它 。 根 据 我 们 对 Lyapunov 指数 的 
了 解 ， 可 以 给 出 如 下 定义 ; 
一 个 混沌 过 程 是 由 一 个 非 线 性 确定 系统 产生 的 ， 它 至 少 有 一 个 正 的 Lyapunov 指数 。 


至 少 有 一 个 正 的 Lyapunov 指数 是 “对 初始 条 件 敏感 性 ”成立 的 必要 条 件 ， 对 初始 条 件 敏 感 是 一 
个 奇异 吸引 子 的 特点 。 
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最 大 的 Lyapunov 指数 也 定义 一 个 混沌 过 程 的 可 预测 范围 。 特 别 地 ， 一 个 混沌 过 程 的 短期 
可 预测 性 近似 等 于 最 大 Lyapunov 指数 的 倒数 (Abarbanal, 1996)。 


14.13 动态 重 构 


动态 重 构 可 以 定义 为 映射 的 辨识 ， 该 映射 对 一 个 未 知 的 m 维 动态 系统 提供 模型 。 这 里 ， 
我 们 的 兴趣 是 对 一 个 已 知 为 混沌 的 物理 系统 产生 的 时 间 序 列 进 行动 态 建 模 。 换 句 话说， 给 定 
一 时 间 序 州 |y(n)1*_,， 我 们 希望 建造 一 个 模型 来 捕获 产生 可 观察 y(n ) 的 潜在 动力 学 。 如 我 
们 在 前 面 一 节 开 头 指出 的 那样 ， 代表 样本 大 小 。 动 态 重 构 的 主要 动机 是 从 这 样 一 个 时 间 
序列 中 得 到 实际 意义 ， 从 而 绕 开 对 潜在 动力 学 的 详细 数学 知识 的 需要 。 感 兴趣 的 系统 一 般 太 
复杂 以 至 于 不 能 用 数学 方式 刻画 它 。 我 们 仅 有 的 可 用 信息 包含 在 对 系统 的 一 个 可 观测 量 进行 
测量 所 得 到 的 时 间 序 列 内 。 
动态 重 构 理 论 中 最 基本 的 结果 是 一 个 称 为 延迟 - 许 入 (delay-embedding) 定 理 的 几何 定理 ， 
该 定理 是 由 Tokens(1981) 提 出 的 。Takens 考虑 一 个 无 噪声 系统 ， 集 中 于 延迟 坐标 映射 (delay 
coordinate map) 或 预测 (predictive) 模 型 ,映射 或 模型 是 由 表示 动态 系统 的 一 个 可 观测 量 所 表示 
的 时 间 序 列 构造 的 。 特 别 地 ，Takens 证 明 ; 如 果 动 态 系统 和 可 观测 量 是 一 般 的 (generic)， 那 
么 从 一 个 d BOGE AR BUTE Bl"! 的 延迟 坐标 映射 在 该 流 形 上 是 微分 同 胚 (diffeomorphism)， 
这 里 d 是 动态 系统 状态 空间 的 维 数 (微分 同 胚 在 15.3 节 讨论 )。 
为 了 用 信和 号 处 理 术 语 对 Takens 定理 作 解 释 ， 首 先 考虑 一 个 未 知 的 动态 系统 ， 该 系统 在 
离散 时 间 的 演化 由 非 线性 差分 方程 
x(n+1) = F(x(n)) (14.89) 
描述 ， 其 中 x(n) 是 系统 在 时 刻 n Hd 维 状态 向 量 ，F(: ) 是 一 个 向 量 值 函数 。 这 里 假定 采样 
周期 为 1。 系 统 输出 的 时 间 序 列 fy(z)} 用 状态 向 量 x(n) 定 义 如 下 : 
y(n) = g(x(n)) + v(n) (14.90) 
其 中 g() 是 标量 值 函数 ，v(m) 表 示 加 性 噪声 。 噪 声 y(n ) 解 释 为 在 观测 y(n) 中 的 不 完全 和 
不 精确 的 综合 效果 。 式 (14.89) 和 (14.90) 描 述 动态 系统 的 状态 空间 行为 。 根 据 Takens 定理 ， 
多 变量 动态 系统 的 几何 结构 当 y(n) =0 时 可 以 从 新 向 量 
Yrln) = Ly(n) y(n ~ 0), x(n -人 (万 -1)z)]7 (14.91) 
构成 的 D 维 空间 中 观察 的 y(n) 展 现 ， 其 中 z PRA RARER ERR, RE 
说 ， 对 不 同 的 离散 时 间 n, 给 定 观 察 值 y(n)， 它 和 未 知 动态 系统 的 一 个 可 观察 值 ( 分 量 ) 有 
K, 假定 D>2d + 1, 使 用 D 维 向 量 ys(n) 动 态 重 构 是 可 能 的 ， 其 中 d 是 系统 状态 空间 的 维 
数 。 以 后 我 们 就 称 这 个 陈述 为 谋 入 -延迟 定理 。 对 动态 重 构 来 说 ， 条件 D 汪 2d + 1 是 充分 的 
(EDEN, FREE D 的 过 程 称 为 庶 入 。 能 够 实现 动态 重 构 的 最 小 的 整数 DRAKA 
维 数 ， 用 Ds 表示 。 

HRA -延迟 定理 具有 很 强 的 意义 : 重建 空间 中 点 ye (n) yn (n+ 1) 的 演化 服从 原始 状 
态 空间 中 未 知 动态 系统 x(n) > x(n +1) 的 演化 。 也 就 是 说 ， 不 能 观察 的 状态 向 量 x(n) WIE 
多 重要 属性 可 以 在 由 ya(n) 定 义 的 重建 空间 中 毫 无 疑义 地 得 到 。 然 而 ， 为 了 获得 这 个 重要 结 
A, Billie AER D: AAA BEB t 的 可 靠 估 计 ， 如 下 综述 ; 

。 充分 条 件 D=>2d+ 1 使 得 解除 吸引 子 一 个 轨道 的 自 相 交 成 为 可 能 ， 这 是 出 现在 轨道 
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投影 到 低 维 数 时 出 现 的 问题 。 嵌 人 维 数 Ds 可 以 小 于 24 + 1。 推 荐 的 过 程 就 是 从 可 观 
测 数据 直接 估计 Ds。 估 计 De 的 可 靠 方法 在 Abarbhanal(1996) 中 描述 的 假 最 近 领 方法 。 
在 此 方法 中 ， 系 统 地 考察 数据 点 和 它们 的 近邻 ， 先 在 维 数 d = 1， 然 后 4 = 2，…, 如 
此 等 等 。 我 们 借以 确立 明显 近邻 停止 时 的 条 件 ， 是 当 漆 加 更 多 元 素 到 重 构 向 量 
ya(n) 时 “不 被 投影 "， 这 样 就 获得 对 嵌入 维 数 D, 的 估计 。 

AE, EIB - 嵌入 定理 并 未 提 及 归 一 化 嵌入 延迟 + 的 选择 问题 。 事 实 上 ， 只 要 可 
用 时 间 序列 无 限 长 ， 它 允许 用 任何 的 r。 然 而 ， 实 际 上 我 们 只 能 在 有 限 长 度 N 的 观 
察 数据 上 工作 。 选 择 的 正确 方法 是 认识 到 归 一 化 符 人 延迟 对 y(m) 和 y(m-r) 应 
足够 大 ， 使 它们 基本 上 独立 ， 这 样 才能 作为 重建 空间 的 坐标 ; 但 也 不 能 使 它们 完全 
独立 ， 以 致 没有 任何 联系 。 满 足 这 个 要 求 的 最 好 办 法 就 是 选择 特定 的 + 使 得 y(n) 和 
y(n 7) 之 间 的 互信 息 获得 它们 第 一 个 最 小 值 (Fraser,1989)。 互 信息 在 第 10 章 讨论 。 


递归 预测 


从 前 面 讨论 中 知道 ， 动 态 重 构 问 题 可 以 解释 为 恰当 地 表示 信号 动力 学 (嵌入 步骤 ) 和 建造 
一 个 预测 映射 (识别 步骤 )。 因 此 ， 实 际 上 我 们 用 下 面 的 网 络 拓扑 结构 来 进行 动态 建 模 。 
。 短期 记忆 (例如 延迟 线 记 忆 ) 结 构 实 现 髓 人， 由 此 根据 可 观察 的 y(n) 和 它 的 延迟 形式 
来 定义 重建 向 量 yi(n); 参见 式 (14.91)。 
。 训练 作为 单 步 预测 器 (如 神经 网 络 ) 的 多 输入 单 输出 (MISO) 自 适应 非 线 性 系统 ， 
识别 未 知 映射 f: RR, ELT: 
y(n +1) = flyp(n)) (14.92) 
式 (14.92) 描 述 的 预测 映射 是 动态 建 模 的 中 心 问 题 : 一 旦 它 被 确定 ， 演 化 ys (n)->yr (n+1) 
变 成 已 知 ， 由 此 确定 未 知 演化 x(n) 一 x(n +1) 
现在 ， 我 们 设 有 一 个 严格 的 理论 来 帮助 我 们 决定 非 线 性 预测 器 是 否 已 成 功 地 识 不 
知 映射 fo 在 线性 预测 中 ， 最 小 化 预测 误差 的 均 方 值 可 以 得 到 一 个 精确 的 模型 。 然 而 ， 一 
混沌 时 间 序 列 不 同 。 同 一 个 吸引 子 的 两 个 轨道 在 每 次 采样 基础 上 都 有 很 大 的 不 同 ， 所 以 最 小 


化 预测 误差 的 均 方 值 对 一 个 成 功 的 映射 仅 是 必要 条 件 而 REEE 
= 


不 是 充分 条 件 。 
动态 不 变量 ， 即 相关 维 数 和 Lyapunov 指数 ， 度 量 吸 
引子 的 全 局 属性 ， 所 以 它们 应 该 可 以 判断 动态 建 模 的 成 





功 与 否 。 因 此 ， 检 验 动态 建 模 的 一 个 实际 方法 是 在 奇异 > meen) 
AIPE 、， 然 后 反馈 输出 到 其 输入 成 为 一 个 自 图 14-24 在 混沌 过 程 动态 重 构 
治 系统 ， 如 14-24 图 所 示 。 这 样 一 个 操作 称 为 选 代 预 测 中 用 于 迭代 预测 的 单 步 预 测 器 


或 递归 预测 。 一 日 初始 化 完成 ,该 自治 系统 的 输出 就 是 
动态 重 构 过 程 的 一 个 实现 。 这 当然 要 假定 预测 器 开始 时 已 被 正确 地 设计 。 
我 们 说 由 图 14-24 描述 的 自治 系统 进行 的 动态 重 构 是 成 功 的 ， 如 果 下 面 的 两 个 条 件 成 立 
(Haykin and Principe, 1998) : 
< 短期 行为 。 一 旦 初始 化 完成 ， 在 一 段 时 间 内 图 14-24 PE ALP y(n) | ERRE 
原来 的 时 间 序 列 |y(n)| ， 这 段 时 间 平 均等 于 从 过 程 的 Lyapunov 谱 确定 的 可 预测 范围 。 
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。 长 期 行为 。 从 重建 时 间 序 列 |y(n)| 计 算 的 动态 不 变量 和 从 原来 的 时 间 序 列 {y(n)| 计 
算 的 动态 不 变量 紧密 地 匹配 。 
为 了 判断 重建 动态 系统 的 长 期 行为 ， 需要 估计 (1) 作 为 衡量 吸引 子 复 杂 度 的 相关 维 数 ，(2) 用 
于 评价 对 初始 条 件 的 敏感 性 和 估计 Lyapunov 维 数 的 Lyapunov 谱 构成 的 框架 ; 参看 式 (14.88)。 
Lyapunov 维 数 应 该 和 相关 维 数 的 值 相近 。 


递归 预测 的 两 种 可 能 的 形式 


式 (14.91) 定 义 的 重建 向 量 yr (n) 的 维 数 为 Dr ， 假 定 维 数 DARANE Ds AS. BE 
WERK A HEB IZM ANE cDs。 但 延迟 线 记 忆 仅 要 求 提供 Ds 个 输出 (重建 空间 的 维 
数 ); 也 就 是 说 ， 用 z 个 相等 间隔 的 抽 头 表示 稀 朴 连接 。 

另外 ， 也 可 以 把 重建 向 量 ya(m) 定 义 为 一 个 完全 的 m 维 向 量 

ya(n) = Lylan), y(n - 1), ¥(n - m+1)) (14.93) 
其 中 m 是 一 个 整数 ， 定 义 为 
m > D,t (14.94) 
第 二 种 重建 向 量 rw (=) 的 形式 比 式 (14.91) 提 供 的 形式 对 可 预测 模型 提供 更 多 的 信息 , 因此 可 
能 产生 一 个 更 精确 的 动态 重 构 。 然 而 ， 这 两 种 形式 有 一 个 共同 的 特点 : 它们 的 组 成 都 由 嵌 人 
维 数 Ds 的 知识 惟一 定义 。 在 任何 情况 下 ， 明 智 的 方法 是 用 最 小 允许 的 值 D， 也 就 是 De, 
来 最 小 化 加 性 噪声 v(n) 对 动态 重 构 质 量 的 影响 。 


动态 重 构 是 一 个 不 适 定 的 过 滤 问 题 


由 于 以 下 一 个 或 多 个 原因 ， 动 态 重 构 实际 上 是 一 个 不 适 定 的 道 问题 ( 首 问 题 适 定 的 条 件 
在 第 5 章 中 讨论 )。 首 先 ， 由 于 一 些 未 知 的 原因 存在 条 件 可 能 被 破坏 。 第 二 ， 在 可 观察 时 间 
序列 上 的 信息 不 足以 惟一 重建 非 线 性 动态 系统 ; 因此 ， 惟 一 性 标准 被 破坏 。 第 三 ， 不 可 避免 
地 出 现 加 性 噪声 和 观察 时 间 序 列 的 某 种 不 精确 都 会 增加 动态 重 构 的 不 确定 性 。 特 别 地 ， 如 果 
噪声 水 平 太 高 ， 连 续 性 标准 也 可 能 被 破坏 。 那 么 怎么 使 动态 重 构 问 题 适 定 呢 ? 答案 在 于 把 包 
含 关于 输入 -输出 映射 的 先 验 知识 的 某 种 形式 作为 主要 要 求 。 换 句 话 说 ， 在 预测 模型 的 设计 
中 ,为 了 解决 动态 重 构 问 题 需要 引 人 某 种 形式 的 限制 (例如 输入 - 输出 映射 的 光滑 性 )。 满 足 
这 个 要 求 的 有 效 方法 是 用 Tikhonov 的 正则 化 理论 ， 这 也 在 第 5 章 讨 论 。 

另 一 个 需要 考虑 的 问题 是 预测 模型 以 足够 精度 解决 逆 问 题 的 能 力 。 在 这 个 背景 下 ， 用 神 
经 网 络 建造 预测 模型 是 合适 的 。 特 别 地 ， 多 层 感知 器 或 径 向 基 函 数 网 络 的 通用 逼近 特性 意味 
着 我 们 利用 具有 适当 规模 的 这 种 或 那 种 神经 网 络 可 以 注意 重建 精度 的 问题 。 另 外 ， 由 于 刚才 
说 明 的 理由 我 们 需要 正则 化 的 解决 方法 。 理 论 上 ， 多 层 感 知 器 和 径 向 基 泪 数 网 络 都 适宜 正则 
化 的 使 用 ; 实际 上 ， 我 们 发 现在 径 向 基 函 数 网 络 中 包括 正则 化 理论 作为 它们 设计 的 整体 部 
分 ， 在 数学 上 易于 处 理 。 所 以 ， 在 下 一 节 描 述 的 计算 机 实验 中 ， 集 中 以 正则 化 的 径 向 基 枯 数 
(RBF) 网 络 (在 第 5 章 描 述 ) 解 决 动态 重 构 问题 。 


14.14 计算 机 实验 下 
为 了 前 明 动态 重 构 的 思想 ， 我 们 考虑 有 三 个 联 立 常 微分 方程 组 的 系统 。 该 系统 由 Lorenz 
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(1963) 从 低压 大 气 热 对 流 的 偏 微 分 方程 组 的 Galerkin 近似 抽象 而 来 ， 它 成 为 测试 非 线 性 动态 


系统 思想 的 一 个 主要 方程 组 。Lorenz 吸引 子 的 方程 组 为 


q 7T ox(t) + oy(t) 





dye) a(t)z(t) + m(t) - y(t) 


~ = x(t)y(t) - bz(t) 


(14.95) 


其 中 ec，r 和 是 无 量 纲 参数 。 这 些 参数 的 典型 值 是 c= 10，8 = 8/3，r = 28。 
图 14- 25 显示 在 两 个 具有 400 个 中 心 的 RBF 网 络 上 ， 使 用 基于 Lorenz 吸引 子 的 x(1) 分 量 
的 带 噪声 时 间 序 列 实施 和 迭代 预测 的 结果 。 信 品 比 是 25 分 贝 。 在 图 14-25a 中 ， 网 络 的 设计 被 
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图 14-25 

a) 对 SNR = + 25 分 贝 的 Lorenz 数据 的 正则 化 选 代 预 测 (m=400，m=20) 
b) Xt SNR = +25 分 贝 的 Lorenz 数据 的 无 正则 化 迭代 预测 (六 =400， 关 =20) 
在 a) 和 5) 中 实 线 为 实际 的 混沌 信和 号， 虚线 为 重 构 信号 
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正则 化 。 在 图 14-25b 中 ， 网 络 设计 未 被 正则 化 。 图 14-25 的 这 两 部 分 清楚 地 表明 正则 化 的 
重要 性 。 在 没有 正则 化 的 情况 下 ， 图 14-25b 中 显示 的 动态 重 构 问 题 的 解决 方法 是 不 能 接受 
的 ， 因 为 它 不 能 近似 Lorenz 吸引 子 的 真正 轨迹 ; 非 正则 化 系统 仅仅 是 一 个 预测 器 。 另 一 方 
面 ， 图 14-25a 中 表示 的 动态 重 构 问 题 的 解决 方法 已 经 学 会 动态 系统 ， 因 为 根据 迭代 预测 的 
网 络 输出 和 Lorenz 吸引 子 在 短期 的 真正 轨迹 非常 接近 。 这 一 点 为 表 14-5 记录 的 结果 证 实 ， 
其 中 我 们 总 结 了 三 种 情况 下 的 Lorenz 数据 。 

(a) TIRE Lorenz 系统 

(b) 4B SNR = 25 分 贝 的 Lorenz 系统 

(c) 用 图 14-25a 的 带 噪 声 Lorenz 时 间 序 列 的 重建 数据 
用 带 噪 声 数据 的 重建 数据 的 不 变量 和 用 无 噪声 Lorenz 数据 的 重建 数据 不 变量 相近 。 偏 差 的 绝 
对 值 是 由 于 嵌入 重建 吸引 子 的 噪声 的 残留 影响 以 及 估计 程序 的 不 精确 。 图 14-25 清楚 地 显示 
动态 建 模 比 预测 有 更 多 东西 。 这 幅 图 以 及 很 多 不 包括 在 这 里 的 其 他 图 像 都 显示 出 正则 化 RBF 
的 解 对 友 代 预测 过 程 所 用 的 吸引 子 上 的 初始 化 点 的 鲁 棒 性 。 

从 图 14-25a 使 用 正则 化 得 来 的 下 面 两 点 观察 ， 是 值得 特别 注意 的 ， 

1. 图 14-25a 的 重建 时 间 序 列 的 短期 可 预测 性 是 大 约 60 个 样本 。 从 无 噪声 Lorenz 吸引 子 
的 Lyapunov 谱 计算 的 理论 可 预测 值 是 100 个 样本 。 试 验 和 无 噪声 Lorenz 吸引 子 的 预测 范围 的 
偏差 仅仅 显示 用 来 实施 动态 重 构 的 实际 数据 里 面 存在 噪声 。 从 重建 数据 计算 的 理论 可 预测 值 
范围 是 61( 表 14-5) ， 这 非常 接近 短期 可 预测 性 的 试验 观察 值 。 

2. 一 旦 超出 短期 可 预测 性 的 期 限 ， 用 14-25a 中 的 重建 时 间 序 列 开始 偏离 真正 Lorenz 吸 
引子 的 无 噪声 实现 。 这 基本 上 是 混沌 动力 学 的 一 个 现象 ， 也 就 是 对 初始 条 件 的 敏感 性 。 像 前 
面 提 到 的 那样 ， 对 初始 条 件 的 敏感 性 是 混沌 的 一 个 标志 。 

表 145 FA Lorenz 系统 的 动态 重 构 试验 的 参数 小 结 


(a) 无 噪声 Lorenz 系统 
使 用 样本 数 : 35 000 
1. 归 一 化 嵌入 延迟 ，r=4 
2. RARER, De =3 
3. Lyapunov 指数 : 
Ay = 1.5697 
dy = - 0.031 4 
a3 = — 22.305 4 
4. 可 预测 范围 ~100 个 样本 
(b) 有 噪声 Lorenz 系统 : 25 分 贝 SNR 
使 用 样本 数 : 35 000 
1. HEBRAEK, c= 4 
2. RAPES, De =5 
3. Lyapunov 指数 : 
Ar = 13.268 9 
`^ = 5.856 2 
à = -3.1447 
dy = — 18.008 2 
As = — 47.057 2 
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4. 可 预测 范围 ~ 12 个 样本 
(c)M B 14-25a HARE Lorenz 数据 重 构 的 系统 
产生 样本 数 (递归 地 ): 35 000 

1. 归 一 化 戏 人 延迟 ，r= 4 

2. RAX, Dp =3 

3. Lyapunov 指数 : 
Ay = 2.565 5 
`à = -0.627 5 
dg = ~ 15.034 2 

4. 可 预测 范围 ~61 个 样本 

注意 : 所 有 的 Lyapunov 指数 的 单位 为 奈 特 / 秒 。 如 第 10 章 讨论 的 那样 ， 一 个 奈 特 是 测量 信息 的 一 个 自然 单位 。 同 样 ， 
在 情形 b 中 ， 噪 声 的 影响 是 增加 Lyapunov 谱 的 大 小 和 正 Lyapunov 指数 的 数量 和 大 小 。 


m 和 入 的 选择 


输入 层 的 大 小 m 由 式 (14.94) 决 定 。 如 以 前 解释 的 那样 ， 推 荐 的 方法 是 根据 等 号 用 最 小 
的 允许 值 m 使 得 噪声 对 动态 重 构 的 影响 最 小 化 。 

归 一 化 髋 入 延迟 + 的 估计 值 基 本 上 不 受 噪声 影响 ,适宜 于 较 高 的 信 噪 比 。 相 反 ， 噪 声 对 
RAME Ds 的 估计 值 有 深刻 的 影响 ， 这 也 符合 直观 。 例 如 ， 对 于 无 噪声 Lorenz 吸引 子 ， 相 
关 维 数 是 2.01。 因 此 ,我 们 可 以 选择 嵌入 维 数 Ds =3， 这 可 由 假 近 邻 方 法 确认 。 归 一 化 嵌入 
延迟 为 t=4。 这 样 ， 用 式 (14.94) 的 等 号 可 以 得 到 动态 重 构 的 m = 12。 然 而 ， 对 于 一 个 有 噪 
声 的 Lorenz 吸引 子 ， 其 中 SNR = +25 分 贝 ， 用 假 最 近邻 法 得 到 D, = 5， 用 互信 息 法 得 到 t= 
4。 在 式 (14.94) 中 代 人 这 些 估 计 值 并 取 等 号 ， 我 们 得 到 图 14-25 中 有 了 噪声 动态 重 构 的 m= 
20. # 14-5 包含 归 一 化 嵌入 延迟 PK A PERK Deo 

对 于 图 14-25a 中 用 到 的 正则 化 参数 和 ， 它 是 用 广义 交叉 确认 (generalized cross-validation, 
GCV) 方 法 由 训练 数据 得 到 的 , 这 种 方法 在 第 $ 章 中 讨论 。 图 14-25a 中 所 用 的 入 值 ， 由 GCV 
方法 计算 ， 根 据 数 据 的 不 同 在 最 小 值 10 “和 最 大 值 10 ?之 间 变 化 。 


14.15 小 结 和 讨论 


这 一 章 的 很 多 材料 都 是 在 讨论 Hopfield 模型 和 BSB 模型 ， 它 们 都 是 作为 植 根 于 神经 动力 
学 的 联想 记忆 的 例子 。 这 两 个 模型 有 下 面 一 些 共同 特点 : 
。 它们 都 使 用 正 反 馈 。 
。 它们 都 有 能 量 (Lyapunov) 函数 ， 固 有 的 动力 学 以 迭代 方式 使 能 量 函 数 最 小 化 。 
。 它们 都 用 Hebb 学 习 规则 进行 自 组 织 学 习 。 
。 它们 都 能 利用 吸引 子 动力 学 进行 计算 。 
很 自然 ， 它 们 各 自 的 应 用 领域 是 不 同 的 。 
BSB 模型 固有 的 聚 类 能 力 使 它 很 好 地 用 在 数据 表示 和 概念 形成 上 。BSB 模型 最 有 趣 的 应 
用 可 能 是 作为 网 络 的 网 络 (network of networks) 的 一 个 基本 计算 单元 ， 网 络 的 网 络 作为 描述 人 
脑 内 系统 组 织 的 不 同 层次 的 一 个 合理 模型 (Anderson and Sutton 1995)。 在 这 个 模型 中 ， 计 算 单 
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元 构成 分 布 在 二 维 阵 列 中 的 局 部 网 络 ， 因 此 用 术语 “网 络 的 网 络 ”。 不 是 从 一 列 到 另 一 列 进行 
平均 激活 通信 ， 这 些 局 部 网 络 设计 为 通过 激活 模式 (向 量 ) 和 其 他 局 部 网 通信 。 在 常规 的 神经 
网 络 中 神经 元 之 间 有 权 值 相连 ， 与 之 类 似 的 是 现在 我 们 用 一 组 交互 (interaction) 和 矩阵 来 描述 两 
个 局 部 网 络 中 吸引 子 之 间 的 耦合 。 局 部 网 络 基 于 它们 的 内 部 连接 形成 聚 类 和 层次 使 得 它们 的 
结构 (anatomical) 连 接 是 稀 朴 的 。 也 就 是 说 ， 局 部 网 络 在 内 部 的 连接 比 它们 之 间 的 连接 更 笛 
密 。 然 而 ， 聚 类 之 间 的 功能 连接 是 富 于 动态 的 ， 这 部 分 起 因 于 局 部 网 络 之 间 的 时 间 相 关 激 
活 。 

对 比 之 下 ，Hopfield 模型 可 以 用 来 解决 下 列 计算 问题 : 

1. 按 内 容 寻 址 存储 ， 它 涉及 部 分 或 失真 的 模式 呈现 给 网 络 以 检索 存储 的 模式 。 在 这 个 
应 用 中 ， 一 般 过 程 是 利用 基于 McCulloch-Pitts 神经 元 (即使 用 硬 限 制 激 活 函 数 ) 的 离散 Hopfield 
模型 。 从 计算 的 角度 看 ， 建 造 一 个 按 内 容 寻 址 存储 是 很 平凡 的 。 然 而 一 个 按 内 容 寻 址 存储 的 
Hopfield 网 络 是 非常 重要 的 ， 因 为 它 以 全 新 的 方式 阐明 动力 学 和 计算 之 间 的 联系 。 特 别 地 ， 
Hopfield 模型 展示 和 神经 生物 学 有 关 的 下 列 属性 : 

。 模型 的 动力 学 在 一 个 高 维 状态 空间 由 大 量 吸引 子 支配 。 

。 一 个 感 兴趣 的 点 吸引 子 ( 即 基 础 记忆 ) 的 位 置 ， 可 以 通过 仅仅 使 用 该 吸引 子 位 置 的 不 

精确 描述 初始 化 模型 以 及 允许 动态 地 演化 模型 状态 到 最 近 点 吸引 子 来 确定 。 

。 学 习 ( 即 模型 自由 参数 的 计算 ) 是 按 Hebb 规则 学 习 进 行 的 。 另 外 ， 这 种 学 习 机 制 允 许 

新 的 点 吸引 子 按 希 望 的 那样 插 人 模型 。 

2. 组 合 最 优化 问题 ， 这 类 问题 被 数学 家 称 为 最 难 的 一 类 。 这 类 最 优化 问题 包括 经 典 的 
旅行 商 问 题 (traveling salesman problem，TSP)。 给 定 一 定数 量 城市 的 位 置 ， 假定 在 一 个 平面 
上 ， 问 题 是 找到 最 短 的 路 径 旅游 完 所 有 城市 并 返回 出 发 点 。TSP 问题 陈述 起 来 很 简单 ， 但 却 
很 难 解决 。 除 了 计算 每 条 可 能 路 径 的 长 度 并 选择 最 短路 径 外 ， 没 有 其 他 已 知 的 找 最 优 路 径 的 
方法 。TSP 问题 是 NP - 完全 的 (Hoperoft and Ulman,1979)。 在 一 篇 开创 性 的 文章 中 ，Hopfield 
and Tank(1985) 阐 述 基于 联 立 一 阶 微分 方程 组 的 模拟 网 络 怎样 给 出 TSP 问题 的 解 。 具 体 地 ， 
网 络 的 权 值 由 旅行 中 访问 的 城市 间距 离 决 定 ， 该 问题 的 最 优 解 是 神经 动力 学 方程 (14.20) 的 
一 个 固定 点 。 在 此 处 遇 到 的 困难 就 是 将 组 合 最 优化 问题 映射 到 连续 (模拟 )Hopfield 网 络 上 。 
网 络 使 一 个 能 量 (Lyapunov) 函 数 最 小 化 ， 然 而 通常 的 组 合 优化 问题 要 求 满足 一 些 硬 的 约束 条 
件 下 使 目标 函数 最 小 (Gee et al. ,1993)。 如 果 违 反 这 些 限制 中 的 任何 一 个 ， 则 认为 解 是 无 效 
的 。 早 期 的 映射 过 程 是 以 特别 方式 建造 的 Lyapunov 函数 为 基础 的 ， 通 常用 一 项 表示 一 个 约 
束 ， 由 





E = E™ + o EP + o ES + (14.96) 
表示 。 第 一 项 有 ?是 被 最 小 化 的 目标 函数 (如 TSP 路 径 的 长 度 ); 它 由 当前 的 问题 决定 。 剩 余 
的 项 Er, GES, ORRERA, ERMEE RR RE cl ，c; ER 
予 每 个 惩罚 函数 E, EP, BO. PERE, 3h (14.96) Lyapunov 函数 的 许多 项 
都 互相 和 干扰， 并 且 Hopfield 网 络 的 成 功 与 否 对 co ，c,，… 的 值 非常 敏感 (Gee et al. , 1993 )。 
因此 获 不 奇怪 ， 网 络 经常 产 生 大 量 无 效 的 解 (Wilson and Pawley, 1988; Ansari and Hou, 1997), 
在 Gee(1993) 中 列 出 用 连续 的 Hopfield 网 络 作为 工具 解决 组 合 优化 问题 的 一 些 基本 问题 ， 其 
中 报告 的 主要 发 现 可 以 概述 如 下 : 
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。 给 一 个 用 二 次 0- 1 规划 表示 的 组 合 优化 问题 ， 如 像 在 旅行 商 问题 中 那样 ， 网 络 有 直 
接 的 方法 来 解决 这 个 问题 ， 求 出 的 解 不 违反 问题 的 任何 约束 条 件 。 

。 基于 复杂 性 理论 和 数学 规划 的 结果 ， 除 了 当 问 题 的 约束 条 件 有 可 能 产生 整 型 多 面体 
(integral polytope) 的 特殊 属性 外 ， 证 明 不 可 能 迫使 网 络 收敛 于 一 个 有 效 的 、 可 解释 的 
解 。 用 几何 术语 来 说 ， 一 个 多 面体 ， 即 一 个 有 界 的 多 面体 (bounded polyhedron), Fi] 
说 它 是 个 整 型 多 面体 ， 如 果 它 的 所 有 顶点 都 是 0- 1 点。 即使 处 理 整 型 多 面体 时 ， 如 
REMAR E” 是 二 次 的 ， 则 问题 是 NP - 完全 的 ， 并 不 能 保证 网 络 能 产生 最 优 解 。 
这 类 问题 包含 TSP 问题 。 不 过 ， 如 果 给 出 对 这 个 解 的 下 降 过 程 的 性 质 ， 可 以 找到 一 
个 有 效 解 ， 而 且 所 得 的 解 有 很 大 的 机 会 是 值得 信赖 的 。 

本 章 考虑 的 Hopfield 模型 ， 在 它 的 神经 元 之 间 使 用 对 称 连接 。 这 样 一 个 结构 的 动力 学 和 
梯度 下 降 动力 学 类 似 ， 由 此 保证 能 收敛 到 一 固定 点 。 然 而 ， 人 脑 的 动力 学 在 两 个 重要 方面 和 
Hopfield 模型 不 同 : 

。 人 脑 内 的 神经 元 连接 是 非 对 称 的 。 

。 人 脑 中 观察 到 振荡 的 和 复杂 的 非 周期 性 的 行为 。 
实际 上 ， 正 是 因为 人 脑 的 这 些 特点 ， 在 Hopfield 模型 之 前 关于 非 对 称 网 络 趾 的 研究 兴趣 已 有 
很 长 历史 了 。 

如 果 我 们 放弃 对 称 性 的 限制 ， 下 一 个 最 简单 的 模型 是 兴奋 - 抑制 网 络 ， 它 的 神经 元 分 为 
两 个 群体 : 一 种 是 只 有 兴奋 性 输出 ， 另 一 种 只 有 抑制 性 输出 。 这 两 种 类 型 神经 元 之 间 的 连接 
是 反对 称 的 。 然 而 ， 闻 种 类 型 神经 元 之 间 的 连接 是 对 称 的 。 在 Seung et al.(1998) 中 考虑 了 这 
种 网 络 的 动力 学 。 那 里 的 分 析 利 用 兴奋 - 抑制 网 络 和 梯度 下 降 - 梯度 上 升 动力 学 之 间 内 在 的 
相似 性 。 这 里 运动 方程 在 某 些 状态 变量 是 梯度 下 降 的 ， 对 另 一 些 是 梯度 上 升 的 。 结 果 ， 不 像 
梯度 下 降 动 力学 刻画 的 Hopfield 模型 ，Seung et al.(1998) 所 考虑 模型 的 动力 学 能 收敛 到 一 个 
男 定 点 或 一 个 极限 环 中 ， 这 取决 于 网 络 参 数 的 选择 。 因 此 ， 在 Seung et al. (1998) 中 研究 的 非 
对 称 模型 代表 对 对 称 的 Hopfield 模型 的 进一步 发 展 。 


注释 和 参考 文献 
[1] 一 个 非 自治 (nonautonomous) 系 统 由 状态 方程 
x(t) = FOG), t), xC) = % 


定义 。 对 一 个 非 自 治 系统 ， 向 量 域 F(x(1), i) 依赖 于 时 间 :。 因 此 ， 不 像 自治 系统 那 
样 ， 我 们 一 般 不 置 初始 时 间 为 0(Parker and Chua,1989)。 
[2] 一 般 地 ， 除 式 (14.11) 外 一 个 非 线 性 动态 系统 的 全 局 稳定 性 还 需要 径 向 无 界 条 件 (Slotine 
and Li, 1991) 
V(x)—> œ x | xl — æ 
成 立 。 由 具有 sigmoid 激活 函数 的 神经 网 络 构 造 的 Lyapunov 函数 通常 满足 该 条 件 。 
[3] 我 们 给 出 一 个 吸引 子 的 严格 定义 如 下 (Lanford 1981; Lichtenberg and Lieberman, 1992) : 
状态 空间 的 一 个 子 集 ( 流 形 )M 被 称 为 一 个 吸引 子 ， 如 果 
。 M 关于 流 保持 不 变 
。 在 流 中 ，M 周围 有 一 个 《 开 ) 邻 域 收缩 到 M 
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[4] 


[6] 


。 M BUSTA ABS ABA EEA 
。 M 不 能 被 分 成 两 个 互 不 相交 的 不 变 片 (piece) 
集中 点 火 (Integrate-and-Fire) 神 经 元 
式 (14.14) 的 加 性 模型 并 没完 全 抓 住 一 个 生物 神经 元 的 精髓 。 特 别 地 ， 它 忽略 了 动作 电 
位 里 编码 的 时 序 信 息 ; 动作 电位 在 第 1 章 给 出 简要 的 定性 描述 。Hopfield(1994) 描 述 一 
个 动态 模型 ， 通 过 考虑 一 个 集中 点 火 神经 元 捕捉 动作 电位 。 这 样 一 个 神经 元 的 运行 由 
一 阶 微分 方程 

C £u(t) =- Eul) - w) + il) (1) 
描述 ， 其 中 u(t) = 神经 元 内 部 电位 ，C = 神经 元 周围 细胞 膜 的 电容 ，R = 细胞 膜 的 漏 
BH (leakage resistance), i(t) = 由 另 一 神经 元 注 人 当前 神经 元 的 电流 ，w。 = 当 i(i) 消 失 
时 神经 元 减少 的 电位 。 在 每 次 内 部 电位 u(t) 达 到 阐 值 时 产生 一 个 动作 电位 。 

动作 电位 被 看 作 是 Dirae delta( that) RAK, HAH 


glt) = DIU - ta) (2) 
其 中 6,，n =1，2，3，… 代 表 神经 元 的 激活 动作 电位 的 次 数 ， 这 些 次 数 由 式 (1) 所 
定义 。 
流 和 人 神经 元 的 总 电流 的 行为 模型 化 为 
file) =- tag(s) + Dwg lt) (3) 


其 中 为 神经 元 SHAT k 的 突 触 权 值 ，t 是 神经 元 的 特征 时 间 常 数 ， 函 数 gj (2) 
由 式 (2) 定 义 。 

式 (14.4) 的 加 性 模型 可 看 作 是 (3) 的 一 个 特例 。 具 体 地 ， 忽 略 g(t) Rik (spiky) tE 
质 ， 而 代 之 以 g;(t) 和 一 个 光滑 函数 的 卷 积 。 这 样 做 的 理由 如 下 ， 因 为 高 度 连接 在 一 
个 合理 的 时 间 间 隔 内 式 (3) 右 边 的 总 和 会 有 许多 项 ， 并 且 我 们 只 关心 神经 元 点 火 率 的 
短期 行为 。 
Little 模型 (Little,1974; Little and Shaw,1975) 和 Hopfield 模型 一 样 使 用 同样 的 权 值 。 然 而 ， 
它们 不 同 之 处 在 于 Hopfield 模型 用 异步 ( 串 行 ) 动 力学 ， 而 Little 模型 用 同步 (并 行 ) 动 力 
学 。 相 应 地 ， 它 们 展示 不 同 的 收敛 性 (Bruck, 1990; Goles and Martinez, 1990)。Hopfield 网 
络 总 是 会 收敛 到 一 个 稳定 状态 ， 而 Little 模型 总 是 会 收敛 到 一 个 稳定 状态 或 长 度 至 多 为 
2 的 极限 环 。 所 谓 “ 极 限 环 "是 指 网 络 状 态 空间 的 长 度 小 于 或 等 于 2 的 环 。 
aE BAM IS BH 
为 了 克服 Hopfield 模型 作为 按 内 容 寻 址 存储 的 局 限 ， 文 献 中 提出 了 各 种 各 样 的 建议 。 
也 许 到 目前 为 止 最 有 意义 的 改进 是 Morita(1993) 提 出 的 ， 它 应 用 于 Hopfield 模型 的 连续 
(模拟 ) 形 式 。 修 改 限 制 在 一 个 神经 元 的 激活 函数 8g(. ) 上 ， 从 而 保持 网 络 作为 联想 记忆 
的 简单 性 。 具 体 地 ， 网 络 中 的 每 个 神经 元 的 通常 硬 限制 (hard-limiting) 或 sigmoid 激活 函 
数 替 换 为 非 单调 函数 。 在 数学 形式 上 ， 这 个 激活 函数 由 两 个 因子 的 乘积 定义 ， 表示 为 


_ {1- expl- av)\{1 + Kexp(6Ci v |-c)) | 
oo) = (a) ee aby) 01) 


其 中 " 为 诱导 局 部 域 。 式 (1) 右 边 的 第 一 项 是 连续 Hopfield 模型 中 常用 的 sigmoid( 双 曲 
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正切 ) 函 数 。 第 二 项 使 激活 函数 p(") 成 为 非 单调 的 。 第 二 项 中 的 参数 b Ae 是 正 的 常 
数 ; 参数 “通常 是 负 的 。 在 由 Morita(1993) 所 做 的 试验 中 ， 各 个 参数 赋值 如 下 : 
a = 50;6 = 15,c = 0.5;k =-1 
根据 Morita 的 研究 ， 激 活 函 数 的 形式 和 所 用 的 参数 并 不 苛刻 ; 最 本 质 的 因素 是 激活 函 
数 的 非 单调 属性 。 
Morita 描述 的 一 个 按 内 容 寻 址 存储 器 模型 有 两 个 有 趣 的 性 质 (Yoshizawa et al., 1993): 
1. 对 由 N 个 神经 元 构成 的 网 络 ， 模 型 的 存储 容量 约 为 0.3 N( 对 较 大 的 W)， 比 常规 
Hopfield 模型 的 相应 值 N/(2logN) 要 大 得 多 。 
2. 模型 没有 出 现任 何 伪 状态 (spurious state) 。 相 反 ， 当 它 不 能 恢复 起 一 个 正确 的 记忆 模 
式 时 ， 网 络 状 态 被 推进 到 一 种 混沌 行为 。 混 沌 的 概念 在 14.13 节 中 讨论 。 

[7] 式 (14.84) 定 义 的 相关 函数 C(g,7) 的 思想 在 统计 上 已 知 是 从 Rényi(1970) 的 工作 得 来 
的 。 然 而 用 它 去 刻画 一 个 奇异 吸引 子 是 在 Grassberger and Procaccia(1983) 中 提出 的 。 他 
们 最 初 是 讨论 相关 维 数 g =2 时 C(g,r) 的 应 用 。 

[8] 从 一 个 时 间 序 列 里 用 独立 坐标 来 构建 动态 系统 首先 由 Packard et al.(1980) 提 出 。 然 而 ， 
这 篇 论文 并 没有 给 出 证 明 ， 用 的 是 “导数 “ 骨 人 而 不 是 时 间 - 延迟 嵌入 。 时 间 - EGR RR 
人 或 延迟 坐标 能 入 归功 于 Ruelle 和 Takens。 特 别 地 ，1981 年 Takens 发 表 了 一 篇 在 数学 
上 很 深刻 的 时 间 - 延迟 能 人 方面 的 文章 ， 它 应 用 于 吸引 子 为 曲面 或 类 似 环 面 ; 也 可 以 
参看 Maf&(1981) 在 同一 杂志 上 发 表 的 同一 主题 的 论文 。Takens 的 论文 对 非 数学 家 来 说 
很 难 懂 ，Maiie 的 更 难 懂 。 延 迟 坐 标 映射 的 思想 在 Sauer et al.(1991) 中 得 到 提炼 。 在 这 
篇 论文 中 采用 的 方法 是 对 Whitney(1936) 和 Takens(1981) 的 早期 结果 的 综合 和 扩展 。 

[9] 将 生物 神经 网 络 看 成 一 个 出 现 振荡 行为 和 行 波 的 非 线 性 动态 系统 已 有 很 长 的 历史 
(Wilson and Cowan 1972; Amari 1977a, 1977b; Amari and Arbib 1977); 也 可 以 参看 Camenter 
et al. ,(1987) 的 讨论 。 


习题 


动力 系统 

14.1 对 于 状态 向 量 x(0) 作 为 一 个 动态 系统 的 平衡 状态 ， 重 述 Lyapunov 定理 。 

14.2 ”验证 图 14-8a 和 14-8b 的 框图 分 别 对 应 神经 动力 学 方程 (14.18) 和 (14.19)。 

14.3 考虑 一 个 一 般 的 神经 动力 学 系统 ， 它 依赖 于 未 指定 的 内 部 状态 参数 、 外 部 动态 刺 
激 和 状态 变量 。 系 统 由 状态 方程 


dx: 
T = gW), j=1,2,,N 


定义 ， 其 中 和 矩阵 W 代表 系统 的 内 部 动态 参数 ， 向 量 u 代表 外 部 动态 刺激 ，x 是 状态 向 量 ， 
它 的 第 j 个 元 素 用 % RR HFW, u 的 值 和 在 状态 空间 的 某 些 运 行 区 域 x(0) 的 值 ， 假 定 
系统 的 轨迹 收敛 到 点 吸引 子 (Pineda,1988b )。 讨 论 所 描述 的 系统 怎么 能 用 于 如 下 应 用 : 
(a) 连 续 映射 器 ,，u 是 输入 ，x( % ) 是 输出 
(b) 自 联想 记忆 ，x(0) 是 输入 ，x( % ) 是 输出 
Hopfield 模型 
14.4 考虑 $ 个 神经 元 组 成 的 Hopfield 网 络 ， 它 需要 存储 以 下 三 个 基本 记忆 ， 
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EE =[+1,+1,+1,+1,+1]” 
& =[+1,-1,-1,+1,-1]" 
& =[-1,+1,-1, +1, +1] 
(a) 计 算 网 络 的 5x5 突 触 权 值 矩 阵 。 
(b) 用 异步 更 新 演示 所 有 三 个 基本 记忆 8&6 ，&,，& 满足 对 齐 条 件 。 
(ce) 如 色 是 有 噪声 的 ， 它 的 第 二 个 元 素 极 性 反 转 ， 研 究 网 络 的 检索 性 能 。 
14.5 ”研究 同步 更 新 时 习题 14.4 所 描述 Hopfield 网 络 的 检索 能 力 。 
14.6 (a) 证 明 
1=[-1,-1,-1,-1,-1]’ 
& =[-1,+1,+1,-1,+1]" 
& = [+1,-1,+1,-1,-1]' 
也 是 习题 14.4 所 描述 的 Hopfield 网 络 的 基本 记忆 。 这 些 基 本 记忆 和 习题 14.4 中 的 基本 记忆 
之 间 有 什么 关系 ? 
(b) 假 定 习 题 14.4 中 基本 记忆 b 的 第 一 个 元 素 被 损坏 ( 即 减 少 为 0)。 确 定 Hopfield 网 络 
所 产生 的 结果 模式 。 比 较 这 个 结果 和 & 的 原始 形式 。 
14.7 考虑 由 两 个 神经 元 构成 的 简单 Hopfield 网 络 ， 网 络 的 突 触 权 值 矩阵 为 
-1 
Ws [ 0 | 
每 个 神经 元 的 偏 置 为 0， 网 络 的 四 个 可 能 状态 是 
=[+l+l ,x = [-1, +1]’,x, = [-1,-1] ,x = [+1, -1]’ 
(a) 说 明 状 态 x, Al x, 是 稳定 的 ， 而 状态 x, Ax, 成 为 极限 环 。 用 下 面 两 个 工具 来 说 明 : 
1. 对 齐 ( 稳 定性 ) 条 件 
2. AEB PRK 
(b) 刻 画 状态 x, 和 x, 的 极限 环 的 长 度 是 多 少 ? 
14.8 在 本 题 中 ， 我 们 推导 式 (14.55)， 它 是 计算 按 内 容 寻 址 存储 器 的 Hopfield 网 络 在 几 [728] 
乎 无 错 情 况 下 的 存储 容量 。 
(a) 误 差 函 数 的 渐进 行为 可 以 近似 描述 为 


erf(y) =x 1l- e 对 大 的 y 
y 





Vn 
用 这 个 近似 证 明 式 (14.53) 的 条 件 概率 可 近似 为 


Plv > 01&,;=+1)~1- 


其 中 p 是 信 品 比 。 证 明 稳定 模式 的 概率 相应 近似 为 
Ne~!’ 
P sib = 1 一 VTp 
(b) 在 (a) 中 公式 pa 的 第 二 项 是 基本 记忆 中 一 个 比特 不 稳定 的 概率 。 根 据 几 乎 没有 错误 
的 存储 容量 的 定义 ， 仅 要 求 这 一 项 较 小 是 不 够 的 ; 相反 它 和 LN 相 比 必须 是 小 的 ， 其 中 W 
是 Hopfield 网 络 的 大 小 。 证 明 信 噪 比 必 须 满足 条 件 


ee 


v mp 
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p > 2log.N + F log, (2rp) 


(e) 利 用 从 (b) 中 得 到 的 结果 ,证 明 为 了 大 部 分 基本 记忆 能 完全 恢复 所 要 求 信 噪 比 的 最 小 
人 允许 值 为 


Onin = Zlog,N 
相应 的 psw 是 多 少 ? 
(d) 用 (c) 的 结果 ， 证 明 
N 
Max ~ 2logeN 


正如 式 (14.55) 中 描述 的 那样 。 

(e) 由 (d) 推 导 的 存储 容量 公式 是 基于 大 部 分 基本 记忆 是 稳定 的 。 对 无 错误 的 存储 容量 给 
出 一 个 更 严格 的 定义 ， 我 们 要 求 所 有 基本 记忆 都 能 被 正确 地 检索 。 利 用 这 后 一 个 定义 ,证 明 
能 存储 在 Hopfield 网 络 中 的 最 大 基本 记忆 的 数目 为 (Amit 1989) 


N 
Mow ~ Flog N 
14.9 一 个 Hopfield 网 络 的 能 量 函 数 可 表达 为 
N M 
= 一 z 之 m? 
其 中 m, 代表 由 
m = 1 DD) 8.55 y = 1,2,°…,M 


EWER, HF x, 是 状态 向 量 x 的 第 j 个 元 素 ，&, ,是 基本 记忆 &, 第 j 个 元 素 ，M 是 基本 
记忆 个 数 。 

14.10 设计 Hopfield 网 络 用 来 存储 两 个 基本 记忆 模式 (+1,+1,-1,+1,+1) 和 
(+1, 一 1, +1, 一 1, +1)。 网 络 的 突 触 权 值 矩 阵 如 下 : 


0 0 0 0 2 
0 0 -2 2 0 
W=|I0 -2 0 -2 0 
0 2 -2 0 0 
2 0 0 0 0 


(a) FER W 的 特征 值 之 和 为 0。 为 什么 ? 

(b) 网 络 的 状态 空间 是 R 的 一 个 子 空 间 。 详 细 说 明 这 个 子 空间 的 结构 。 

(c) 由 基本 记忆 向 量 扩张 的 子 空 间 记 为 信 ， 和 矩阵 W 的 零 空 间 记 为 N。 网 络 的 固定 点 (稳定 
状态 ) 和 伪 状 态 是 什么 ? 

(读者 若 希 望 了 解 这 里 描述 的 网 络 的 动力 学 的 一 个 更 详细 的 描述 ， 可 以 参考 deSilva and 
Attikiouzzel(1992) 的 文章 。) 

14.11 图 14-26 显示 一 个 非 单调 激活 函数 的 分 段 线性 形式 。 用 这 个 近似 形式 的 Hopfield 
网 络 的 恢复 动力 学 由 

Lya) =- v(t) + Wx(t), x(t) = sgn(v(1)) - kv(1) 
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定义 ， 其 中 vi) ee BAS aa, We RAI, xO ERER) I -k 
是 一 个 负 的 常数 斜率 。 今 了 是 位 于 基本 记忆 员 的 象限 
内 的 网 络 平衡 状态 ， 并 令 Pe) 
X = sgn(7) — kv 
证 明科 由 下 面 三 个 条 件 所 刻画 (Yoshizawa et al., 1993): 


N 
(a) Dy HG: :=0, p=2,3,°,M 


(b) Ye fi = M 

Ecl, i=1, 2, =, N 

HP E, b +, En 是 存储 在 网 络 中 的 基本 记忆 ， 
&,, 是 所 第 个 这 1 Ex 的 第 个 元 素 ，N 是 神经 
元 个 数 。 图 14-26 

14.12 考虑 由 下 列 方程 描述 的 简单 神经 动力 学 模 





型 : 
de, | 
描述 的 系统 总 是 会 收敛 到 一 个 惟一 的 点 吸引 子 ， PERMEI wi MERI 


之 Duwi < < Gate 1)? 


KF g = dq/dv,。 考 查 这 个 条 件 的 正确 性 。 你 可 以 参考 论文 (Atiya, 1987)， 该 条 件 是 从 这 篇 
文章 导出 的 。 
Cohen-Grossberg 定理 
14.13 考虑 式 (14.57) 定 义 的 Lyapunov 函数 。 如 果 式 (14.59) 至 式 (14.61) 的 条 件 满足 ， 
证 明 e) 
dE 


a <=? 


14.14 在 4.10 节 ， 我们 通过 应 用 Cohen- 
Grossberg 定理 导出 了 BSB 模型 的 Lyapunov efi 
数 。 在 推导 式 (14.73) 时 ， 省 略 了 一 些 细节 。 
请 写 出 这 些 细 节 。 

14.15 图 14-27 显示 非 单调 激活 函数 的 
一 个 图 形 ， 该 函数 由 Morita(1993) 提 出 ， 这 在 
注释 [6] 中 讨论 过 。 这 个 函数 在 构造 Hopfield 
网 络 时 用 于 代替 双 曲 线 正 切 函 数 。Cohen- 
Grossberg 定理 适用 于 这 样 构造 的 联想 存储 器 
3? 请 说 明 你 的 理由 。 





图 14-27 








第 15 章 动态 驱动 的 递归 网 络 


15.1 简介 


如 在 前 一 章 提 到 的 ， 递 归 网 络 是 有 一 个 或 多 个 反馈 环 的 神经 网 络 。 反 馈 可 以 是 局 部 的 或 
全 局 的 。 在 这 一 章 ， 我 们 继续 研究 有 全 局 反馈 环 的 递归 网 络 。 

给 定 多 层 感知 器 作为 基本 模块 ， 应 用 全 局 反馈 可 以 有 不 同 的 形式 。 反 馈 可 以 从 多 层 感 知 
器 的 输出 神经 元 到 输入 层 。 还 有 另 一 种 可 能 的 全 局 反馈 是 从 网 络 的 隐藏 神经 元 到 输入 层 。 当 
多 层 感 知 器 有 多 个 隐藏 层 时 ， 全 局 反馈 的 可 能 形式 甚至 可 以 进一步 扩大 。 要 点 是 递归 网 络 有 
丰富 的 结构 布局 。 

基本 上 ， 递 归 网 络 有 两 个 基本 功能 作用 : 

。 联想 记忆 

。 输入 -输出 映射 网 络 

递归 网 络 作为 联想 记忆 在 14 章 已 经 有 详细 叙述 。 这 一 章 我 们 将 研究 作为 输入 - 输出 映 
射 网 络 的 用 途 。 无 论 用 途 怎样 ， 研 究 递 归 网 络 时 特别 关注 的 问题 是 它 的 稳定 性 ; 这 个 问题 在 
第 14 章 也 考虑 过 。 

由 定义 ， 映 射 网 络 的 输入 空间 被 映射 到 输出 空间 。 对 于 这 方面 的 应 用 ， 递 归 网 络 依 时 序 
a HAIARN De REE 一 章 里 可 以 称 递 归 网 络 为 动态 驱动 递归 网 络 。 而 

反馈 的 应 用 使 得 递归 网 络 获得 状态 表示 ， 这 使 得 它 成 为 适应 于 不 同 应 用 的 工具 ， 例 如 非 
AMAUALE. E EA a A a 
此 ， 递归 网 络 提供 第 13 章 所 说 的 动态 驱动 前 馈 网 络 的 一 种 替代 。 

由 于 全 局 反馈 的 效益 ， 它 们 实际 可 以 运行 得 更 好 。 使 用 全 局 反馈 具有 大 大 减少 记忆 需求 
的 潜力 。 


本 章 的 组 织 


本 章 分 为 四 个 部 分 : 体系 结构 ， 理 论 ， 学 习 算 法 和 应 用 。 第 一 部 分 包含 15.2 节 ， 讨 论 
递归 网 络 的 体系 结构 。 

第 二 部 分 包括 15.3 节 至 15.5 节 ， 处 理 递 归 网 络 的 理论 部 分 。15.3 节 描 述 状 态 空间 模型 
以 及 相关 的 可 控 性 和 可 观察 性 的 问题 。15.4 节 导 出 一 个 状态 空间 模型 的 等 价 模型 ,通称 为 
有 外 部 输入 的 非 线 性 自 回 归 的 模型 。15.5 节 讨 论 递 归 网 络 计算 能 力 的 一 些 理论 问题 。 

第 三 部 分 包括 15.6 节 至 15.12 节 ， 讨 论 递归 网 络 的 学 习 算 法 和 相关 问题 。 开 始 在 15.6 
节 有 一 个 对 主题 的 综述 。15.7 节 在 第 4 章 的 材料 基础 上 讨论 通过 时 间 的 反 向 传播 算法 。15.8 
节 讨 论 另 一 个 流行 算法 : 实时 递归 学 习 ，15.9 节 对 经 典 Kalman 滤波 理论 进行 简短 综述 ， 紧 
跟着 15.10 THRI ER Kalman 过 滤 算 法 。15.11 节 给 出 了 后 面 这 个 算法 用 于 递归 学 习 
的 一 个 计算 机 实验 。 建 立 在 梯度 基础 上 的 递归 学 习 受 到 消失 梯度 问题 的 影响 ，15.12 节 对 此 
有 讨论 。 
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第 四 部 分 也 是 本 章 最 后 一 部 分 ， 包 括 15.13 节 和 15.14 节 ， 讨 论 递归 网 络 的 两 个 重要 应 
用 。15.13 节 讨 论 系统 辨识 。15.14 节 讨 论 模型 参考 自 适应 控制 。 
在 15.15 节 以 一 些 最 终 评论 结束 章 。 


15.2 递归 网 络 体系 结构 


如 前 面 介 绍 所 言 ， 递 归 网 络 的 结构 布局 有 许多 不 同形 式 。 本 节 讨 论 四 种 特殊 结构 ， 每 一 
种 着 重 于 全 局 反馈 的 一 种 特殊 形式 '" 。 它 们 有 如 下 共同 的 特点 : 

。 它们 都 结合 一 个 静态 多 层 感知 器 或 其 中 某 些 部 分 。 

。 它们 都 利用 多 层 感 知 器 的 非 线性 映射 能 力 。 


输入 - 输出 递归 网 络 


733 图 15-1 显示 由 一 个 多 层 感 知 器 的 自然 推广 而 得 到 的 通用 递归 网 络 模型 。 模 型 有 一 个 输 
人 被 应 用 到 有 9 个 单元 的 抽 头 延迟 线 
记忆 。 模 型 的 单个 输出 通过 另外 g 个 
单元 抽 头 延迟 线 记 忆 反 馈 到 输入 。 两 
个 抽 头 延迟 线 记忆 的 内 容 被 用 于 反馈 
到 多 层 感 知 器 的 输入 。 模 型 输入 的 当 
前 值 用 x(z) 代 表 ， 相 对 应 的 输出 用 
y(n+1) 表 示 ; 也 就 是 输出 领先 输入 
一 个 时 间 单 位 。 因 此 应 用 到 多 层 感知 u(n - 2) 
器 输入 层 的 信和 号 向 量 的 数据 窗口 数据 
如 下 : 

。 现在 和 过 去 的 输入 值 ， 即 “mn-4+2) 


输入 
u(n) 


u(n),u(n—-1), «+, u(n- 






输出 
q+1), 表示 来 自 网 络 外 部 的 un gr+l) y(n +1) 
输入 。 
。 输出 的 延迟 值 ， 即 y(n), y(n ~q+1) 
y(n-1),…, y(n-q+1), 
在 此 基础 上 模型 输出 y(n+ (ag 
1) 进 行 回归 。 mina 


因此 图 15-1 的 递归 网 络 称 为 有 外 
部 输入 的 非 线 性 自 回 归 模 型 (nonlinear y(n -1) 
autoregressive with exogenous inputs model, 
NARX )” 。NARX 的 动态 行为 由 
y(n +1) = Fly(n),,y(n -@ +1), y(n) 
u(n),***,u(n -q +1)) 
(15.1) 


描述 ， 其 中 下 是 它 的 自 变 量 的 一 个 非 
线性 函数 。 注意 在 图 15-1 中 ， 已 经 假 图 15-1 有 外 部 输入 的 非 线 性 自 回 归 (NARX) 模 型 
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设 两 个 延迟 线 记 忆 有 同样 大 小 的 g; 它们 一 般 是 不 同 的 。NARX 模型 将 在 15.4 节 详 细 探 究 。 
状态 空间 模型 


图 15-2 表示 另 一 种 通用 的 递归 网 络 的 框图 ， 称 为 状态 空间 模型 。 隐 藏 神经 元 定义 网 络 
的 状态 。 隐 藏 层 的 输出 通过 一 个 单元 延迟 模块 反馈 回 输 入。 输入 层 为 反馈 节点 和 源 节点 的 联 
合 。 网 络 是 通过 源 节点 和 外 部 连接 的 。 用 于 将 隐藏 层 输 出 反馈 回 输入 层 的 延迟 单元 的 数目 决 
定 了 模型 的 阶 数 。m x 1 维 的 向 量 u(n) 代 表 输 入 ，g x 1 向 量 x(n) 代 表 隐 藏 层 在 n 时 刻 的 输 
出 向 量 。 我 们 可 以 用 下 列 两 个 联 立 方程 组 描述 在 图 15-2 中 的 模型 的 动态 行为 : 

x(n +1) = f(x(n),u(n)) (15.2) 

y(n) = Cx(n) (15.3) 

这 里 C+, EAA BSE APE SAFER HE PA, CBR Ze RENE AR, BB 
藏 层 是 非 线性 的 ， 但 输出 层 是 线性 的 。 

图 15-2 的 递归 网 络 包括 几 个 特殊 的 递归 结构 作为 其 特例 。 例 如 ，Elman(1990) 描 述 过 的 
在 图 15-3 所 示 的 简单 递归 网 络 (simple recurrent network, SRN). Elman 网 络 结构 和 图 15-2 所 示 
结构 有 相似 之 处 ， 除 了 输出 层 可 以 是 非 线 性 的 和 省 略 了 输出 的 单元 延迟 模块 。 





具有 单个 隐藏 层 
的 多 层 感 知 器 


图 15-2 ”状态 空间 模型 


Elman 网 络 包含 从 隐藏 层 神经 背景 单元 
元 到 由 单元 延迟 组 成 的 背景 单元 
(context unit) 层 之 间 的 递归 连接 。 
这 些 背 景 单 元 存储 隐藏 神经 元 对 
应 一 个 时 间 步 的 输出 ， 接 着 反馈 
回 输入 层 。 因 此 隐藏 神经 元 具有 
它们 以 前 激活 的 记录 ， 这 使 得 网 
络 可 以 进行 通过 时 间 扩 展 的 学 习 ieee 
FESS. BGR Ee the BR a 
经 元 ， 输 出 神经 元 给 出 在 外 部 激 图 15-3 简单 递 轨 网 络 (SRN) 
励 作 用 下 网 络 的 响应 。 由 于 隐藏 神经 元 反馈 的 特性 ， 这 些 神经 元 在 多 时 间 步 内 通过 网 络 继续 特 
环 信息 ， 从 而 发 现时 间 的 抽象 表示 。 因 此 简单 递归 网 络 不 仅仅 是 纪录 过 去 数据 的 纪录 带 。 
Elman(1990) 讨 论 利用 图 15-3 所 示 的 简单 递归 网 络 在 连续 音素 流 中 发 现 单 词 的 边界 ， 而 
不 需 任何 内 部 表示 性 约束 。 递 归 网 络 的 输入 代表 当前 的 音素 。 输 出 代表 网 络 对 序列 中 下 一 个 


BS、 输出 
7 向量 
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音符 的 最 佳 猜测 。 背 景 单 元 的 作用 是 给 网 络 提供 动态 记忆 以 便 能 够 对 包含 在 一 系列 的 音素 中 
的 信息 进行 编码 ， 这 是 和 预测 有 关 的 。 
递归 多 层 感 知 器 

第 三 种 递归 结构 是 一 种 递归 多 层 感知 器 (recurrent multilayer perceptron, RMLP) (Puskorius et 
al.,1996)。 它 有 一 个 或 多 个 隐藏 层 ， 基 本 上 因为 同样 的 原因 ， 和 静态 多 层 感 知 器 比 那些 使 用 单 
个 隐藏 层 的 感知 器 更 有 效 和 节约 。RMLP 的 每 一 个 计算 层 对 它 的 邻近 层 有 一 个 反馈 ， 如 图 
15-4 所 示 ， 此 时 RMLP 有 两 个 隐藏 层 5 。 

问 量 x (2) 代 表 第 一 个 隐藏 层 的 输出 ，xr (n) 代表 第 二 个 隐藏 层 的 输出 ， 以 此 类 推 。 
向 量 x, (x) 代 表 输 出 层 的 输出 。 那 么 ，RMLP 通常 对 输入 向 量 n(n) 的 响应 的 动态 行为 可 用 如 


下 联 立方 程 组 描述 : 
x; (n+1)= pr(xi(n),u(n)) 


wa (n+ 1) = Qa (x(n) (n+ D) (15.4) 


x,(2 +1) = 9,(x,(7), x(n + 1)) 
其 中 p(t), Or (59), …，9() 分 别 表示 代表 RMP 第 一 个 隐藏 层 、 第 二 个 隐藏 层 、 
een 和 输出 层 的 激活 函数 ; K 表示 网 络 中 隐藏 层 的 数目 。 
这 里 描述 的 RMLP 包括 图 15-3 的 Elman 网 络 和 图 15-2 的 状态 空间 模型 ， 因 为 RMIP 的 
输出 层 或 任何 隐藏 层 没有 限定 其 激活 函数 的 具体 形式 。 
单元 延迟 模块 






x(n) M x (n+ Dai 
输入 un) j 向 量 
向 量 ! 
| 
oS 有 多 个 隐藏 层 的 
多 层 感知 器 
图 15-4 回归 多 层 感知 器 
二 阶 网络 
在 描述 图 15-2 的 状态 空间 模型 中 ， 我 们 用 “ 阶 ? 来 表示 隐藏 神经 元 的 数目 ， 其 输出 通过 
单元 延迟 模块 反馈 回 输入 层 。 


但 是 ， 术 语 “ 阶 ”有 时 用 来 表示 如 何 定义 神经 元 的 诱导 局 部 域 的 方法 。 例 如 ， 一 个 多 层 感 
知 器 神经 元 的 诱导 局 部 域 w 定义 为 
% = Duy + D ws, utt (15.5) 
其 中 2, 源 于 隐藏 层 神经 元 / DRESS, u 是 输入 层 应 用 于 节点 ; 的 源 信号 ; 表示 网 络 中 
对 应 的 突 触 权 值 。 将 式 (15.5) 所 描述 的 神经 元 称 为 一 阶 神经 元 。 但 是 ， 有 时 诱导 局 部 域 ， 
由 乘法 组 成 ， 表 示 为 
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v, = 5 DEAN . (15.6) 
我 们 称 这 里 的 神经 元 为 二 阶 神 经 元 。 一 阶 神经 元 大 用 了 单一 的 权 值 ww ， 它 和 输入 节点 i j 
连接 起 来 。 
二 阶 神经 元 组 成 基本 的 二 阶 递归 网 络 (Giles et al. ,1990)， 它 的 一 个 例子 如 图 15-5 所 示 。 
网 络 接受 按时 间 顺 序 的 输入 序列 ， 并 且 按 如 下 两 个 式 子 定 义 的 动力 学 演化 : 
y(n) = b+ 5 2 myx: (nr) u; (n) (15.7) [37 





(15.8) 





1 
a(n +1) = oy, (n)) = 1 + exp(- »,(n)) 


其 中 w(m) 为 隐藏 神经 元 丰 的 诱导 局 部 域 ， 包 AAR. oo, (n) 为 神经 元 的 状态 
(输出 )，w(n) 是 应 用 于 源 节点 j 的 输入 ，ws 为 二 阶 神经 元 k 的 权 值 。 

图 15-5 所 示 的 二 阶 递归 网 络 的 一 个 特点 是 乘积 x, (nn) uy (rn RT RAS, 输入 } ， 一 
个 正 的 权 值 wi 表示 从 {状态 , 输入 | 到 | 于 一 个 状态 | 的 状态 转移 的 出 现 ， 而 权 值 为 负 表 示 没 
有 转移 出 现 。 状 态 转移 描述 如 下 : 


d(xi, u;) = X (15.9) 
单位 延迟 


输出 


x(n+1) 





图 15-5 二 阶 递归 网 络 ; 为 简单 起 见 省 略 神经 元 的 偏 置 连接 
网 络 有 2 个 输入 和 3 个 状态 神经 元 ， 因 此 需要 3x2=6 个 乘法 器 
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根据 这 种 关系 ， 二 阶 网 络 可 以 用 来 表示 和 学 习 确 定性 有 限 状 态 自动 机 (0 (deterministic finite- 
state automata, DFA), DFA 是 一 个 有 确定 状态 数目 的 信息 处 理 装置 。 在 15.5 节 可 以 发 现 更 多 
关于 神经 网 络 和 自动 机 关系 的 细节 。 

本 节 讨 论 的 递归 网 络 的 体系 结构 强调 利用 全 局 反馈 。 如 在 简介 中 所 提 到 的 ， 递归 网 络 也 
可 能 只 有 一 个 局 部 反馈 。 对 后 面 这 种 递归 网 络 性 质 的 概述 在 Tsoi and Back(1994) 中 提 到 ; 也 
可 参见 习题 15.7。 


15.3 状态 空间 模型 


在 动态 系统 的 数学 描述 上 ， 状 态 的 概念 起 着 重要 的 作用 。 动 态 系统 的 状态 形式 地 定义 为 
一 些 数量 的 集合 ， 它 概括 为 了 惟一 地 描述 系统 将 来 行为 所 必需 的 系统 过 去 行为 的 全 部 信息 ， 
除了 用 于 输入 (激励 ) 产 生 的 外 部 效果 之 外 。g x 1 向 量 x(n) 表 示 非 线性 离散 时 间 系 统 的 状 
So mx) 向量 n(n) 表 示 用 于 系统 的 输入 ，p x 1 向 量 y(n) 表 示 相 应 的 输出 。 使 用 数学 语 
言 ， 假 设 无 噪声 ， 系 统 的 动态 行为 用 非 线 性 方程 组 
x(n +1) = @CW,x(n) + W,u(n)) (15.10) 
y(n) = C x(n) (15.11) 
描述 ， 其 中 W, Æq x g EM, W, 是 q x (m+ IER, CE px ER o: RIR 是 对 角 
上 映射， 由 
Xl g(x) 
Q: 2 一 > a) (15.12) 
和 olx) 
描述 ， 表 示 某 种 无 记忆 的 分 量 非 线性 o: RR. BHR", R AMR’ 分 别称 为 输入 空间 、 状 
态 空间 和 输出 空间 。 状 态 空间 的 大 小 ( 即 4) 是 系统 的 阶 。 因 此 图 15-2 的 状态 空间 模型 是 m 
输入 、p 输出 的 g 阶 回 归 模 型 。 式 (15.10) 是 模型 的 过 程 方 程 ， 式 (15.11) 是 度量 方程 。 过 程 
方程 (15.10) 是 式 (15.2) 的 特殊 形式 。 
建立 在 使 用 静态 多 层 感 知 器 和 两 个 延迟 线 记 忆 基 础 上 的 图 15-2 的 递归 网 络 提供 一 种 实 
现 式 (15.10) 和 (15.12) 非 线性 反馈 系统 的 方法 。 注 意图 15-2， 在 多 层 感知 器 的 神经 元 中 ， 只 
有 那些 通过 延迟 将 其 输出 反馈 到 输入 层 的 神经 元 与 确定 递归 网 络 的 状态 有 关 。 因 此 这 就 把 输 
出 层 的 神经 元 排除 在 状态 的 定义 之 外 。 
MTA W,. W, 和 C 的 解释 ， 以 及 对 非 线 性 函数 gp(.)， 可 以 作 如 下 陈述 : 
。 矩阵 Ww, 代表 隐藏 层 的 g 个 神经 元 连接 到 输入 层 的 反馈 节点 的 突 触 权 值 。 和 矩阵 Ww, | 
代表 连接 到 输入 层 源 节点 的 这 些 隐藏 神经 元 的 突 触 权 值 。 这 里 假设 隐藏 层 神经 元 的 
偏 置 被 包括 在 权 值 矩 阵 W, 中 。 
。 FEM C 代表 输出 层 中 连接 到 隐 含 神经 元 的 p 个 线性 神经 元 的 突 触 权 值 。 这 里 假设 输 
出 神经 元 的 偏 置 被 包括 在 权 值 矩 阵 C 中 。 
。 非 线性 函数 p( . ) 代 表 隐 藏 神经 元 的 sigmoid 激活 函数 。 激 活 函 数 通 常 具有 双 曲 正切 的 
形式 
l= e” 


i4 e” (15.13) 





o( x) = tanh( x) = 
或 logistic 函数 的 形式 
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式 (15.10) 和 (15.11) 描 述 的 状态 空间 模型 递归 网 络 的 一 个 重要 性 质 ， 是 它 能 逼近 一 类 很 
大 范围 的 非 线性 动态 系统 。 但 是 ， 这 种 逼近 只 在 一 个 状态 空间 的 紧 子 集 和 有 限 的 时 间 区 间 的 
情况 下 有 效 ， 所 以 感 兴趣 的 动态 特征 并 没有 反映 出 来 (Sontag, 1992)。 

例 15.1 为 了 表示 矩阵 W,，W, 和 C 的 组 成 ， 考 虑 图 15-6 所 示 的 完全 连接 递归 网 络 ， 其 
中 反馈 路 径 来 自 隐藏 神经 元 。 在 这 个 例 中 ，m =2，g =3，p = 1。 和 矩阵 W,, W, 定义 如 下 : 


Wu Wy Wy 





g(x) = (15.14) 


bi Wy Wis 


W, =| wy Wn wy], W, =| b, wy ws 














W3 Wy Wx b3 Wy Ws 


其 中 和 矩阵 W, 的 第 一 列 由 b, ，5,，63 组 成 ,分别 代表 神经 元 1，2，3 3A, EE C 是 一 
个 行 向 量 ， 定 义 为 C= [1,0,0]。 a 





u(n) © 
u(n) © 


E 15-6 ”有 两 个 输入 、 两 个 隐藏 神经 元 和 一 个 输出 神经 元 的 完全 连接 递归 网 络 


输入 层 计算 层 


可 控 性 和 可 观察 性 
研究 系统 理论 时 ， 稳 定性 、 可 控 性 和 可 观察 性 以 各 自 根本 的 方式 为 突出 特征 。 本 节 讨 论 
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可 控 性 和 可 观察 性 ， 因 为 它们 经 常 被 放 在 一 起 处 理 。 稳 定性 在 前 一 章 已 讨论 ， 不 再 详 述 。 

前 面 已 提 到 过 ， 许 多 递归 网 络 能 用 图 15-2 所 示 的 状态 空间 模型 表示 ， 其 中 状态 定义 为 
通过 一 系列 延迟 单元 反馈 回 输入 层 的 隐藏 层 输 出 。 在 此 背景 下 ， 知 道 递归 网 络 是 否 可 控 和 可 
观察 是 很 重要 的 。 可 控 性 是 指 我 们 能 否 控 制 递归 网 络 的 动态 行为 。 可 观察 性 是 指 我 们 能 否 观 
察 到 应 用 于 递归 网 络 的 控制 结果 。 从 这 种 意义 来 说 ， 可 观察 性 是 可 控 性 的 对 侦 。 

说 递归 网 络 是 可 控 的 ， 是 指 在 有 限时 间 步 内 ,初始 状态 可 以 控制 到 任意 想 达 到 的 状态 ; 
输出 与 这 个 定义 无 关 。 说 递归 网 络 是 可 观察 的 ， 是 指 在 有 限 的 输入 /输出 度量 中 网 络 的 状态 
可 以 确定 。 对 递归 网 络 可 控 性 和 可 观察 性 的 精确 的 论述 不 在 本 书 的 讨论 范围 5 。 我 们 将 自己 
限制 在 可 控 性 和 可 观察 性 的 局 部 形式 。 局 部 是 指 将 这 些 概念 应 用 于 网 络 平衡 状态 邻 域 的 意义 
F (Levin and Narendra, 1993) 。 

如 果 对 于 输入 u， 它 满足 条 件 


x = o(Ax + Bu) (15.15) 
就 说 状态 是 方程 (15.10) 的 一 个 平衡 状态 。 不 失 一 般 性 ， 令 =0 和 于 =0。 那 么 平衡 状态 由 
0 = 中 (0) 


描述 。 换 名 话说 ， 原 点 (0,0) 代 表 平 衡 点 。 
同样 不 失 一 般 性 ,我 们 可 以 限制 到 一 个 单 输入 、 单 输出 (singie input, single output, 
SISO) 系 统 ， 简 化 我 们 的 论述 。 可 以 把 方程 (13.10) 和 (15.11) 分 别 改写 为 
x(n +1) = @CW,x(n) + wuln)) (15.16) 
y(n) = x(n) (15.17) 
其 中 w 和 e 都 是 9 x 1 列 向 量 ，w(n) 是 标量 输入 ，y(n) 为 标量 输出 。 由 于 9 对 应 于 式 
(15.13) 或 式 (15.14) 的 sigmoid 函数 是 连续 可 微 的 ， 我 们 可 以 通过 在 平衡 点 &=0 和 =0 的 附 
近 把 式 (15.16) 展 开 成 Taylor 级 数 而 使 其 线性 化 ， 并 保留 一 阶 项 ， 得 到 
dx(n + 1) = @'(0)W,dx(n) + 9'(0)w,du(n) (15.18) 
其 中 6x(n) 和 8u(n) 是 分 别 应 用 到 状态 和 输入 的 小 位 移 。g x g 矩阵 p (0) FE g(v) 在 v=0 时 
对 变量 v 的 Jacobi 行列 式 。 我 们 可 以 描述 线性 化 的 系统 如 下 : 


Sx(n +1) = Adx(n) + bdu(n) (15.19) 
dy(n) = e7dx(n) (15.20) 
HH q x q BRAM qx i 列 向 量 b 分 别 定义 如 下 ; 
A = 中 (0)W。 (15.21) 
b = 9'(0)w, (15.22) 


状态 方程 (15.19) 和 (15.20) 是 标准 的 线性 形式 。 因 此 我 们 可 以 利用 线性 动态 系统 的 可 控 性 和 
可 观察 性 的 众所周知 的 结果 ， 它 们 是 数学 控制 论 的 一 个 标准 部 分 。 


局 部 可 控 性 


从 线性 化 的 方程 (15.19)， 重 复 迭 代 产 生 下 列 结果 : 
Sx(n+1) = Adx(n) + bdu(n) 
dx(n +2) = Adx(n +1) + bdu(n +1) 
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dx(n + q) =A bdx(n) + AT bdu(n + q—-1) +++ + Abdu(n +1) + bdu(n) 
其 中 9 是 状态 空间 的 维 数 。 相 应 地 ， 我 们 可 以 说 (Levin and Narendra, 1993) : 
方程 (15.19) 表 示 的 线性 化 系统 是 可 挖 的 ， 如 果 算 阵 
M, = [Ab,…，Ab,b] (15.23) 
有 秩 g， 即 满 秩 ， 因 为 这 样 线 性 化 的 过 程 方程 (15.19) 有 惟一 的 解 。 
矩阵 M, 称 为 线性 系统 的 可 控 性 矩阵 。 
设 方程 (15.16) 和 (15.17) 描 述 的 递归 网 络 由 一 系列 输入 u,(n) 驱 动 ， 其 定义 为 
u(n) = [un),unt1),, un+t go1)] (15.24) 
因此 可 以 考虑 映射 
G(x(n),u,(n)) = (x(n), x(n + q)) (15.25) 
其 中 G: R >R, EJ 15.4 证 明 : 
。 RA x(n + 9) 是 其 过 去 值 x(n) 和 输入 u(n), u(n41), oo, uln+q- 1) RSE 
线性 函数 。 
。 x(n + 9g) 关于 u,(n) 的 Jacobi 矩阵 在 原点 的 值 等 于 式 (15.23) 的 可 控 性 和 矩阵 M. 。 
我 们 可 以 把 映射 G 关于 u,(n) 和 x(n) 的 Jacobi 矩阵 在 原点 (0，0) 的 值 表示 为 


(22m) (oxen + a) 
ax(n)/ o0) 9X(P) lwo 


( me (0,0) ( ent) (0,0) 


Hp ERMER, OR SER, 项 义 是 不 感 兴 趣 的 部 分 。 因 为 它 的 特殊 形式 ，J06, 的 行列 
式 等 于 单位 矩阵 工 的 行列 式 ( 等 于 1) 和 可 控 性 和 矩阵 M, 的 行列 式 乘 积 。 如 果 M, 是 满 秩 矩阵 ， 
MBA Iie) BEMER. 

为 了 继续 处 理 ， 我 们 需要 引用 反 函 数 定 理 ， 它 可 以 陈述 如 下 (Vidyasagar, 1993) : 

考虑 映射 f 民 '-> 民 * ， 假 设 映射 f 的 每 一 个 分 量 对 于 它 的 变量 在 平衡 点 CR 都 是 可 
aH, HS y = 了 (x)。 那 么 存在 开 集 所 CR 包含 有 % AVCR At y, KALAUSV LK 
TAE, PR ZELA, MARKE: RR 也 是 光滑 的 ， 即 f 是 光滑 微分 同 胚 。 

RIJ f: 一 YY 如 果 满 足下 列 条 件 ， 则 说 它 是 所 到 XY 上 的 微分 同 肛 ; 

1.£U)=V, . 

2. BR f: VW>%Y 是 一 对 一 的 ( 即 可 道 的 )。 

3. BBR fs Y->QL 的 每 个 分 量 关 于 它 的 变量 是 连续 可 微 的 。 

回 到 可 控 性 的 问题 ， 我 们 将 对 式 (15.25) 定 义 的 上 映射 验证 满足 反 函 数 定理 中 的 fu)=Y 
FF. MAAR EH, URNS M, 的 秩 为 a， 可 以 说 局 部 存在 一 个 反映 射 ， 定义 
为 . 


= | x | (15.26) 


Ce) 
Jio,0) = 0 ML 





(x(n),x(n +q)) = G'(x(n),u,(n)) (15.27) 
式 (15.27) 实 际 上 指出 存在 一 个 输入 序列 能 局 部 驱动 网 络 在 g 个 时 间 步 中 从 状态 x(n) Bl 
Xx(n+ 9)。 所 以 我 们 可 以 正式 陈述 局 部 可 控 性 定理 如 下 : 
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假定 递归 网 络 由 式 (15.16) 和 (15.17) 定 义 ， 它 在 原点 ( 即 平衡 点 ) 附 近 的 线性 化 方程 由 
(1S.19) 和 (15.20) 定 义 。 如 果 线 性 化 系统 是 可 控 的 ， 则 递归 网 络 是 在 原点 附近 是 局 部 可 控 
的 。 


局 部 可 观察 性 


重复 使 用 线性 化 的 方程 (15.19) 和 (15.20)， 可 得 
dy(n) =c 6x(n) 
dy(n +1) =ecrsxn + 1) 
=c’Adx(n) + ce’ bdu(n) 


dy(n + q@-1) =c7AT!dx(n) +e A bdu(n) ++ + CT ADSu(n +q - 3) 
+e bdu(n + q - 2) 

其 中 9 是 状态 空间 的 维 数 。 所 以 ， 我 们 可 以 陈述 (Levin and Narendra, 1993) : 

方程 (15.19) 和 (15.20) 描 述 的 线性 化 系统 是 可 观察 的 ， 如 果 矩 阵 

M, = [c,cA’,---,c(A”)?"] (15.28) 

的 秩 为 g， 即 满 秩 。 

FRE M, 称 为 线性 系统 的 可 观察 性 矩阵 。 

令 用 于 驱动 由 式 (15.19) 和 (15.20) 描 述 的 递归 网 络 的 一 系列 输入 定义 如 下 ， 


u(n) = [un),un+1), ,un + gq- 2)]7 (15.29) 
相应 地 ， 令 
y,(n) = [y(n),y(n4+1),,¥(n+q-1)]" (15.30) 
代表 由 初始 状态 x(n) 和 输入 序列 u,_1(n) 产 生 的 输出 向 量 。 那 么 我 们 可 以 考虑 映射 
H(u,_,(n),x(n)) = (v1(n),y,(n)) (15.31) 


其 中 H: RR, EI 15.5 中 证 明 y, (n) Xt x(n) 的 Jacobi 矩阵 在 原点 的 值 等 于 式 
(15.28) 的 可 观察 惩 阵 M,。 因 此 HH 关于 u,.1(n) 和 x(n) 的 Jacobi 矩阵 在 原点 (0，0) 的 值 可 表 
示 为 





En Emal 

(0) Iwa (2)! (9) 3u,- Cn)? oo I X | 

(0.0) = au (n) ay (n) = F M, (15.32) 
( ax(n) lew 人 ax(n) le 


EP XE ARR Jeo AFT ISR SE LE 工 的 行列 式 (等 于 1) AE M, 
的 行列 式 的 乘积 。 如 果 M。 LA, BA 区 也是。 引用 反 函 数 定理 ， 可 以 说 如 果 线 性 化 系 
统 的 可 观察 性 矩阵 M, 是 满 秩 的 ， 则 存在 一 个 逆 映 射 ， 定 义 为 

(uCn) ,xz)) = H'(u,,(n),y,(n)) (15.33) 
实际 上 ， 这 个 等 式 表明 在 原点 的 局 部 邻 域 ，x(n) 是 u_1(n) 和 y(n) 的 非 线性 函数 ， 非 线性 
函数 是 递归 网 络 的 观察 器 。 因 此 局 部 可 观察 性 定理 可 正式 地 陈述 如 下 (Levin and Narendra, 
1993): 
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由 式 (1$.16) 和 (1S$.17) 所 定义 的 递归 网 络 ， 令 它 在 原点 ( 即 平衡 点 ) 附 近 线 性 化 的 形式 由 
式 (1$.19) 和 (15$.20) 所 定义 。 如 果 线 性 系统 是 可 观察 的 ， 则 递归 网 络 在 原点 附近 是 可 观察 的 。 


6115.2 考虑 具有 和 矩阵 A = al 的 状态 空间 模型 ， 这 里 a 是 标量 , I 是 单位 矩阵 。 式 
(15.23) 的 可 控 性 敌阵 M, 简化 为 
M, = a[b,…,b,b] 
BERKEL Alt, REER A 的 值 的 线性 化 系统 是 不 可 控 的 。 
在 式 (15.28) 中 置 A = al， 得 到 可 观察 性 矩阵 
M, = alec,c,.…,c] 


它 的 秩 也 为 1。 这 个 线性 系统 也 是 不 可 观察 的 。 a 
15.4 有 外 部 输入 的 非 线 性 自 回归 模 型 


考虑 单 输入 单 输出 的 递归 网 络 ， 其 行为 由 状态 方程 组 (15.16) 和 (15.17) 描 述 。 给 定 这 种 
状态 模型 ， 希 望 将 它 修改 为 一 个 输入 - 输出 模型 ， 作 为 代表 递归 网 络 的 一 个 等 价 表示 。 

利用 式 (15.16) 和 (15.17), 输出 y(n + 9) 可 以 用 状态 x(n) 和 输入 向 量 u,(n) 表 示 为 ( 参 
看 习题 15.8) 

y(n +q) = P(x(n),u,(n)) (15.34) 
其 中 9 是 状态 空间 的 维 数 ，®， 民 一 民 。 假 设 递归 网 络 为 可 观察 的 ， 可 以 用 局 部 可 观察 性 定 
理 得 到 
x(n) = Wy,(n),u,_.(n)) (15.35) 
其 中 映射 Y: 民 "… 一 民 ' 。 将 式 (15.35) 代 人 (15.34)， 得 到 
y(n +q) = BY(y(n),u 1(n)),u,(n)) 
= F(y,(n),u,(n)) (15.36) 
其 中 mw- (ERE u (1) RATA 9 - 1 个 元 素 里 ， 非 线性 映射 F: ROR MO, YE 
关 。 用 式 (15.30) 和 (15.29) 给 出 的 y,(n) 和 u,(n) 定 义 ， 可 以 将 式 (15.36) 扩 展 为 
y(n+q) = Fl(y(n+gqg-1), ,y(n),un+ gq ~-1), > u(n)) 
用 n-g+1 代 替 rn， 可 以 得 到 
y(n+1) = Fl(y(n),, y(n- gqg+1),u(n),,u(n - ¢ + 1)) (15.37) 

必须 指出 ， 对 于 这 个 非 线 性 映射 F RR, RAY y(n + 1) 由 过 去 值 
y(nR),，…,y(n 一 g+1) 以 及 现在 和 过 去 的 输入 wu(n)，…，u(n -9g+1l) 所 惟一 决定 ， 这 个 
映射 才 是 存在 的 。 因 为 这 个 输入 - 输出 表示 等 价 于 方程 组 (15.16) 和 (15.17) 的 状态 模型 ， 因 
此 递归 网 络 必须 是 可 观察 的 。 等 价 的 实际 含义 是 图 15-1 的 NARX 模型 ， 它 的 全 局 反馈 限制 
在 输出 神经 元 ， 实 际 上 它 是 能 够 模拟 图 15-2 的 完全 回归 状态 空间 模型 (假设 m=1, p=1), 
并 且 它 们 的 输入 - 输出 行为 没有 差别 。 

例 15.3 再 考虑 图 15-6 描述 的 完全 连接 递归 网 络 。 对 于 我 们 目前 的 讨论 ， 假 设 其 中 一 
个 输入 ， 比 如 说 u(n), 削减 为 0， 这 样 我 们 有 一 个 单 输入 、 单 输出 的 网 络 。 如 果 网 络 是 局 
部 可 观察 的 ， 可 以 用 图 15-7 的 NARX 模型 代替 完全 连接 网 络 。 虽 然 NARX 模型 仅 有 产生 于 
输出 神经 元 的 有 限 反馈 这 种 情况 ， 而 图 15-6 的 完全 连接 递归 网 络 的 多 层 感知 器 周围 的 反馈 
产生 于 三 个 隐藏 /输出 神经 元 ， 但 是 这 种 等 价 性 还 是 成 立 的 。 E 
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图 15-7 具有 3 个 隐藏 神经 元 的 NARX 网 络 


15.5 递归 网 络 的 计算 能 力 


如 图 15-2 所 示 的 状态 空间 模型 和 图 15-1 的 NARX 模型 ， 递 归 网 络 具 有 模拟 有 限 状 态 自 
动机 的 固有 能 力 。 自 动机 表示 像 计算 机 一 样 的 信息 处 理 设备 的 抽象 。 实 际 上 自动 机 和 神经 网 
络 有 久远 的 渊源 四 Minsky 在 他 1967 年 的 书 (p.55) 有 如 下 重要 的 说 明 : 

每 一 有 限 状 态 机 等 价 于 某 神经 网 络 ， 并 且 可 以 由 它 模拟 。 也 就 是 说 ， 给 定 一 有 限 状态 机 
从 ， 可 以 建立 一 个 神经 网 络 NK ， 著 将 它 看 做 一 个 黑箱 机 器 ， 则 其 行为 酷似 从。 


递归 网 络 的 早期 工作 用 硬 的 阐 值 逻辑 作为 神经 元 的 激活 函数 而 不 用 软 的 sigmoid 函数 。 

也 许 是 Cleeremans(1989) 第 一 个 报道 了 展示 递归 网 络 能 否 学 会 由 小 型 有 限 状 态 语法 所 包 
含 的 例外 (偶发 性 ) 的 试验 。 特 别 地 ， 由 语法 导出 的 字符 串 赋 给 简单 递归 网 络 (图 15-3)， 需 
要 它 在 每 一 步 预测 下 一 字母 。 预 测 是 上 下 文 相关 的 ， 因 为 每 一 个 在 语法 中 出 现 两 次 的 字母 每 
次 它 的 后 继 字 母 都 不 同 。 这 表明 网 络 能 够 在 隐藏 神经 元 中 发 展 对 应 自动 机 (有 限 状 态 机 ) 状 态 
的 内 部 表示 。 在 Kremer(1995) 中 给 出 正式 的 证 明 ， 表 明 简 单 递 归 网 络 有 和 任何 有 限 状态 机 一 
样 的 计算 能 力 。 

在 一 般 意义 下 ， 递归 网 络 的 计算 能 力 体现 在 两 个 主要 定理 : 

定理 I (Siegelmann and Sontag, 1991) 所 有 图 灵机 都 可 由 建立 在 用 sigmoid 激活 函数 的 
神经 元 上 的 完全 连接 递归 网 络 模拟 。 

图 灵机 是 Turing(1936) 发 明 的 抽象 计算 工具 。 它 由 图 15-8 所 示 的 三 个 功能 块 构成 : (1) 
控制 单元 假设 任何 可 能 的 有 限 状 态 之 一 ; (2) 线 性 带 ( 假 设 在 两 个 方向 上 是 无 限 的 ) 被 划分 成 
分 离 的 方块 ， 每 个 方块 都 可 以 存储 一 个 单一 的 符号 ， 这 些 符号 是 从 一 个 有 限 的 符号 集合 中 取 
出 的 ; (3) 读 写 头 沿 着 线性 带 移动 ， 并 从 控制 单元 得 到 信息 和 把 信息 传送 到 控制 单元 (Fischler 
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and Firschein，1987)。 从 给 出 的 讨论 足以 说 明 图 灵机 是 一 个 和 任何 强大 的 计算 机 具有 一 样 功 
能 和 能 力 的 抽象 物 。 这 个 思想 称 为 Church- 控制 单元 
Turing 假设 。 

Æ I (siegelmann et al.,1997) 对 
于 NARX 网 络 ， 若 具有 一 隐藏 层 单 元 ， 其 
激活 函数 为 有 界 和 单 侧 饱和 的 并 且 有 一 个 
线性 输出 神经 元 ， 那 么 不 计 线 性 延迟 Se art Ea 
(linear slowdown)， 它 可 以 模拟 用 完全 连接 移动 头 
的 具有 有 界 且 单 侧 饮 和 的 激活 函数 的 递归 图 15-8 Turing 机 
网 络 。 

“线性 延迟 "是 指 如 果 一 个 完全 连接 的 有 N 个 神经 元 的 递归 网 络 在 时 间 7 内 计算 一 个 我 
们 感 兴趣 的 任务 ， 那 么 等 价 的 NARX 网 络 所 占用 的 总 时 间 是 (N+ 1)T。 函 数 p(.) 如 果 满 足 
下 列 条 件 则 说 它 是 有 界 且 单 边 饱和 的 (bounded,one-sided saturatied, BOSS) $% : 

1. 函数 oC ) 值 域 有 界 ; 即 a<olx)<b, 对 于 所 有 xR。 

2. 函数 o ) 是 左 饱 和 的 ; 即 存在 值 * AS, FRAR ras, A p(x)= 5S。 

3. 函数 p(* ) 是 非常 数 的 ;， 妈 存在 不 相同 的 两 个 数 x, 和 x,， 满 足 g(x) g(x%,)。 

靖 值 (Heaviside) 和 分 段 线性 函数 满足 BOSS 条 件 。 但 是 在 严格 意义 上 sigmoid 函数 不 是 一 
个 BOSS 函数 ， 因 为 它 不 满足 条 件 2。 但 是 做 一 个 小 的 修改 ， 它 可 以 满足 BOSS 条 件 ， 即 写成 
(在 logistic 函数 的 情况 下 ) 









线性 带 


存储 一 个 符号 









ra = [r WE a> s 
‘tO Fees 
其 中 s€R, 实际 上 , 在 x<s 时 logistic 函数 是 截断 的 。 
作为 定理 工 和 定理 开 的 推论 ， 我 们 可 以 得 到 (Giles,1996) : 


有 一 个 隐藏 层 神经 元 且 激活 函数 为 BOSS 函 全 连接 的 
数 及 一 个 线性 输出 神经 元 的 NARX 网 络 是 Turing Pring | Q) grass 
等 价 的 。 


图 15-9 给 出 定理 工 和 定理 开 及 这 个 推论 的 i 
图 解 。 但 是 ， 必 须 注意 当 网 络 体系 结构 受到 限制 


时 ， 递 归 网 络 的 计算 能 力 就 不 再 成 立 ， 如 同 在 
Sperduti(1997) 描 述 的 一 样 。 在 注释 [7] 中 给 出 受 NARX 网 络 | [两 
限制 的 网 络 体系 结构 的 参考 文献 。 

图 15-9 ”定理 1 和 和 定理 荆 及 它们 的 推论 的 图 解 


15.6 学 习 算 法 


现在 来 研究 递归 网 络 的 训练 问题 。 第 4 章 讨论 过 普通 (静态 ) 多 层 感 知 器 的 两 种 方式 : 集 
中 方式 和 串 行 方式 。 在 集中 方式 中 ， 网 络 的 敏感 度 是 在 调整 网 络 的 自由 参数 前 针对 整个 训练 
集 计算 的 。 在 串 行 方式 中 ,参数 的 调整 是 在 给 出 训练 集 的 每 一 个 模式 的 表示 之 后 进行 的 。 同 
样 ， 有 两 个 训练 递归 网 络 的 方式 如 下 : 
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1. 分 回合 (epochwise) 的 训练 。 在 给 定 的 回合 ， 递 归 网 络 从 初始 状态 出 发 到 达 一 个 新 的 状 
态 后 停止 ， 此 时 训练 亦 停止 ; 然后 对 于 下 一 个 回合 又 重新 设置 一 个 新 的 初始 状态 。 初 始 状态 
在 每 个 训练 时 期 并 不 总 是 一 样 的 。 重 要 的 是 对 于 新 的 回合 的 初始 状态 和 网 络 在 此 前 一 个 回合 
到 达 的 状态 不 一 样 。 例 如 ， 考 虑 用 递归 网 络 模拟 有 限 状 态 机 的 运行 ， 即 一 个 设备 可 区 分 的 内 
部 配置 (状态 ) 在 数量 上 是 有 限 的 。 在 这 种 条 件 下 ， 有 理由 使 用 分 回合 的 训练 ， 因 为 我 们 有 很 
大 的 可 能 性 用 递归 网 络 去 模拟 机 器 中 大 量 的 不 同 的 初始 状态 和 不 同 的 最 终 状态 的 集合 。 在 递 
归 网 络 的 分 回合 训练 中 ,，“ 回 合 ” 与 一 般 普 通 多 层 感 知 器 中 使 用 的 意义 不 同 。 用 现在 的 术语 ， 
递归 网 络 的 回合 对 应 普通 多 层 感 知 器 的 一 个 训练 模式 。 

2. 连续 训练 。 训 练 的 第 二 种 方法 适合 于 没有 可 用 的 重 置 状态 和 /或 需要 在 线 学 习 的 情况 。 
连续 训练 的 显著 特征 是 网 络 学 习 和 被 网 络 处 理 的 信号 处 理 同时 进行 。 简 单 地 说 ， 学 习 过 程 永 
不 停止 。 例 如 ， 考 虑 让 递归 网 络 去 对 一 个 非 稳 态 过 程 如 语音 信号 建 模 。 在 这 种 情况 下 ， 网 络 
的 连续 运行 不 能 提供 方便 的 时 刻 以 决定 何 时 停止 训练 而 重新 开始 用 网 络 不 同 自 由 参数 的 值 。 

记 住 这 两 种 训练 的 方式 ， 在 下 面 的 两 节 中 我 们 将 描述 递归 网 络 的 不 同 的 学 习 算法 ， 可 概 
述 如 下 : 

* 在 15.7 节 讨论 的 通过 时 间 的 反 向 传播 (back-propagation-through-time) 算 法 是 在 这 样 的 前 

提 下 提出 的 ， 即 递归 网 络 的 时 序 操作 可 以 展开 为 一 个 多 层 感知 器 。 这 就 为 标准 反 向 传 
播 算法 的 应 用 铺 平 了 道路 。 通 过 时 间 的 反 向 传播 算法 可 以 用 分 回合 的 方式 、 连 续 方 式 
或 两 种 方式 的 组 合 来 实现 。 
“在 15.8 节 讨 论 的 实时 递归 学 习 算 法 是 从 方程 (15.10) 和 (15.11) 描 述 的 状态 空间 模型 导 
出 的 。 
两 种 算法 有 很 多 共同 点 。 首 先 它们 都 是 基于 梯度 下 降 的 方法 ， 因 此 代价 函数 的 瞬时 值 (基于 平 
方 误差 准则 ) 对 网 络 的 突 触 权 值 被 最 小 化 。 第 二 ， 它 们 实现 都 很 简单 ， 但 可 能 收敛 很 慢 。 第 三 ， 
它们 是 相关 的 ， 因 为 通过 时 间 的 反 向 传播 算法 的 信号 流 图 的 表示 ， 能 够 由 实时 递归 学 习 算法 的 
一 确定 形式 的 信号 流 图 的 表示 经 转 置 而 得 到 (Lefebvre,1991; Beaufays and Wan,1994)。 

建立 在 梯度 下 降 基 础 上 的 实时 (连续 ) 学 习 使 用 最 少 可 用 信息 ， 即 代价 函数 关于 被 调整 参 
数 向 量 的 梯度 的 瞬时 估 值 。 可 以 通过 利用 Kalman 的 滤波 理论 加 速 学 习 过 程 ， 它 更 有 效 地 利 
用 包含 在 训练 数据 中 的 信息 。 在 15.10 节 简 单 介绍 解 耦 扩展 的 Kalman 滤波 器 ， 通 过 它 我 们 
可 以 处 理 动态 学 习 任 务 ， 而 对 用 以 梯度 下 降 为 基础 的 方法 ， 这 将 会 是 非常 困难 的 。 在 15.9 
节 给 出 Kalman 滤波 器 的 简要 回顾 。 注 意 解 看 扩展 的 Kalman 滤波 器 既 可 以 应 用 于 静态 前 馈 网 
络 ， 亦 可 应 用 于 递归 网 络 。 


一 些 启发 


在 进行 刚才 提 到 的 新 学 习 算 法 的 描述 之 前 ， 我 们 罗列 一 些 对 于 改进 递归 网 络 训练 的 启 
发 ， 这 些 训练 涉及 梯度 下 降 方法 的 使 用 (Giles,1996) : 
“训练 样本 应 该 按照 字典 顺序 排序 ， 最 短 的 符号 字符 串 首先 提交 给 网 络 。 
e 训练 应 该 开始 于 一 个 小 的 训练 样本 集 ， 尔 后 随 着 训练 进行 逐步 增加 样本 。 
* 只 有 当 正 在 被 网 络 处 理 的 训练 样本 的 绝对 误差 大 于 某 一 指定 的 标准 时 才 应 该 更 新 网 络 
的 突 触 权 值 。 
* 在 训练 过 程 中 建议 使 用 权 值 衰减 ; 权 值 衰减 作为 复杂 性 正则 化 的 一 个 粗略 的 形式 ， 在 
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第 4 章 讨论 。 

第 一 个 启发 有 特别 重要 的 意义 。 如 果 可 以 实现 的 话 ， 它 提供 减轻 在 采用 梯度 下 降 方 法 训 
练 递归 网 络 时 出 现 的 消失 梯度 问题 。 这 个 问题 在 15.12 节 讨 论 。 
15.7 通过 时 间 的 反 向 传播 

用 于 训练 一 个 递归 网 络 的 通过 时 间 的 反 向 传播 (BPTT) 算 法 是 标准 反 向 传播 算法 的 扩 
展 中 。 它 可 以 通过 将 网 络 的 时 序 操作 展开 成 一 个 分 层 的 前 馈 网 络 导出 ， 它 的 拓扑 结构 在 每 个 
时 间 步 增加 一 层 。 

具体 地 ， 让 表示 需要 学 习 时 序 任务 的 递归 网 络 ， 从 时 间 no 开始 一 直到 时 间 nw NOR 
示 对 递归 网 络 N 的 时 序 操作 进行 展开 所 得 的 前 馈 网 络 。 展 开 后 的 网 络 W ”和 初始 网 络 W 的 关系 
如 下 : 

1. 对 区 间 (no ,nj] 内 的 每 一 个 时 间 步 ， 网 络 N“" 有 一 个 包含 个 神经 元 的 层 ，K 是 包含 在 

网 络 W 中 的 神经 元 的 数量 。 
2. 在 网 络 W 的 每 一 层 有 网 络 W 的 每 一 个 神经 元 的 拷贝 。 
3. 对 每 一 个 时 间 步 1E [no,n]， 从 网 络 N" 中 1 层 的 神经 元 i 到 1+1 层 的 神经 元 j 的 突 
触 连接 ， 是 在 网 络 N 中 从 神经 元 i 到 神经 元 i 的 突 触 连接 的 拷贝 。 

这 些 要 点 在 下 面 的 例子 中 解释 。 

例 15.4 考虑 图 15- 10a 所 示 的 两 个 神经 元 递归 网 络 W。 为 简化 表示 ， 省 略 单位 延迟 操作 
RE z-'。 这 个 操作 符 应 该 插入 到 图 15- 10a 所 示 突 触 连接 (包括 自 连 接 环 ) 的 每 一 步 。 通 过 一 步 
一 步 地 展开 网 络 的 时 序 操作 ， 得 到 图 15- 10b 的 信和 号 流 图 ， 其 中 起 始 时 间 n =0。 图 15-10b 代 
表 分 层 的 前 馈 网 络 N” ， 其 中 在 每 一 步 时 序 操作 都 有 新 的 层 加 入 。 a 
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15-10 
a) 两 个 神经 元 递归 网 络 W 的 结构 图 了 ) 网 络 N 依 时 间 展 开 的 信和 号 流 图 
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依赖 于 使 用 分 回合 训练 或 使 用 连续 (实时 ) 训 练 ， 展 开 过 程 的 应 用 导致 通过 时 间 的 反 向 传 
播 两 个 根本 不 同 的 实现 。 下 面 依次 描述 这 两 种 递归 学 习 方法 。 


分 回合 的 通过 时 间 的 反 向 传播 

将 用 于 递归 网 络 训练 的 数据 集 分 割 为 独立 的 回合 ， 每 一 回合 表示 一 个 感 兴趣 的 时 序 模 
Ao $ no 表示 一 个 回合 的 开始 时 间 ，x, 表示 其 结束 时 间 。 在 这 个 回合 里 ， 可 以 定义 代价 函 
数 


my 
Cal no, ni) = 方 > > eln) (15.38) 
n=nm jes 


HPA 为 网 络 中 指定 期 望 响应 的 那些 神经 元 标号 j 的 集合 ，ej (nm ) 是 该 神经 元 关于 期 望 响应 
和 计算 出 的 实际 输出 之 间 的 误差 信号 。 我 们 希望 计算 网 络 的 敏感 度 ， 即 计算 代价 函数 对 网 络 
突 触 权 值 的 偏 导数 。 为 此 ， 可 以 用 通过 时 间 的 反 向 传播 (back-propagation-through-time, BPTT ) 
算法 ， 这 个 算法 建立 在 第 4 章 讨论 的 标准 反 向 传播 学 习 集 中 方式 的 基础 上 。 分 回合 的 BPIT 
算法 进行 如 下 (Williams and Peng, 1990) : 

。 首先 ， 对 时 间 区 间 (mz ,mi ) 执 行 单 纯 的 数据 前 向 传播 通过 网 络 。 保 存 完 整 的 输入 数据 

记录 、 网 络 状态 ( 即 网 络 的 突 触 权 值 ) 以 及 期 望 响 应 。 
。 对 过 去 这 条 记录 执行 一 个 单纯 的 反 向 传播 通过 网 络 ， 计 算 局 部 梯度 


8,(n) -一 (15.39) 
的 值 ， 对 于 所 有 的 FCA, no < nni。 这 个 计算 用 公式 
g (v(n))e(n) 对 于 n= mi 


I = gn on) + D wln D] XR ng < n < n (15.40) 
esd - 


进行 ， 其 中 ¢ (…) 是 激活 函数 对 它 的 自 变量 的 导数 ，vw (mn) 是 神经 元 7 的 诱导 局 部 域 。 这 里 假 
设 网 络 的 所 有 神经 元 有 同样 的 激活 函数 gp(')。 重 复 使 用 式 (15.40) ， 从 时 刻 n 出 发 ， 向 后 
一 步 一 步 进行 直到 时 刻 n。; 此 处 涉及 的 步 数 与 包含 在 这 个 回合 内 的 步 数 相同 。 

。 一 旦 执行 反 向 传播 的 计算 回 到 no + 1 时 ， 对 神经 元 7 的 突 触 权 值 由 调整 如 下 : 

Aw; = - q fatron) =7 5 ò (n)x (n - 1) (15.41) 

其 中 "是 学 习 率 参数 ，x,(n - 1 是 在 时 刻 n -1 时 作用 于 神经 元 j 的 第 ; 个 突 触 的 输入 。 

比较 刚才 描述 的 分 回合 的 BPTT 的 过 程 和 标准 反 向 传播 学 习 的 集中 方式 ， 可 以 看 出 它们 
根本 的 差别 是 前 者 在 网 络 的 许多 层 里 指定 对 神经 元 的 期 望 响 应 ， 因 为 实际 输出 层 在 网 络 的 时 
序 行为 展开 时 被 重复 很 多 次 。 


截断 的 通过 时 间 的 反 向 传播 
为 了 使 用 通过 时 间 的 反 向 传播 的 实时 形式 ， 我 们 用 误差 平方 和 的 瞬时 值 ， 即 
Eln) = 工 er(n) 
2 jes 
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作为 需要 最 小 化 的 代价 函数 。 如 同 标准 反 向 传播 学 习 的 串 行 (随机 ) 模 式 一 样 ， 我 们 使 用 代价 
函数 (nn ) 的 负 梯 度 去 计算 对 于 每 个 时 刻 n 的 网 络 的 突 触 权 值 的 适当 调整 量 。 当 网 络 运行 时 ， 
调整 建立 在 连续 的 基础 上 。 但 是 为 了 采用 计算 可 行 的 方式 ， 我 们 只 在 一 个 固定 数目 的 时 间 步 
内 储存 相关 的 输入 数据 和 网 络 状态 的 历史 记录 ， 该 时 间 步 数目 称 为 截断 深度 (trancation 
depth) 。 此 后 截断 深度 用 h 表示 。 任 何 比 h 时 间 步 早 的 信息 是 无 关 的 ， 因 此 可 以 省 略 。 如 果 
不 截断 计算 ， 由 此 容许 回 到 开始 时 间 ， 计 算 时 间 和 储存 要 求 当 网 络 运行 时 会 随时 间 线 性 增 
长 ， 最 终 达 到 某 点 使 得 整个 学 习 过 程 成 为 不 可 行 的 。 
算法 的 第 二 种 形式 称 为 截断 的 通过 时 间 的 反 向 传播 (truncated back-propagation-through- 
time,BPTT(h) ) 算 法 (Williams and Peng,1990)。 神 经 元 7 的 局 部 梯度 定义 为 
aD =- oy WE; CMHn-hclen (15.42) 
Fa SH Zz 
¢ (1) ej (1) 对 于 !/ = mn 
ÈD = gD) SY wy (8,141) Fn hc len (45.43) 
ke 


一 旦 执行 反 向 传播 的 计算 到 达 时 刻 na -+ 1 时 ， 对 神经 元 j 的 突 触 权 值 HEFT ANF URE 
Aw,(n) = X 3,(1)x,(1-1) (15.44) 


其 中 和 x, (0-1) RUBE Mo PERSE (15.43) PF wy (1) 的 使 用 需要 保留 权 值 的 历史 记录 。 只 
有 当 学 习 率 参数 1 小 到 足以 确保 权 值 从 一 个 时 间 步 到 下 一 时 间 步 不 会 有 很 大 改变 的 时 候 ， 在 
等 式 中 使 用 wj 才 是 合理 的 。 

比较 式 (15.43) 和 (15.40)， 可 以 看 出 与 分 回合 的 BPIT 算 法 不 同 ,误差 信号 只 有 在 当前 
时 间 n 才 会 进入 计算 。 这 就 解释 为 什么 不 保存 过 去 期 望 响 应 记录 的 原因 。 实 际 上 ， 截 断 的 
通过 时 间 的 反 向 传播 算法 对 前 期 时 间 步 的 处 理 ， 和 随机 反 向 传播 算法 (在 第 4 章 讨 论 ) 对 待 多 
层 感 知 器 中 的 隐藏 神经 元 的 计算 是 一 样 的 。 


一 些 实 际 考 虑 


在 BPTT 的 实际 应 用 中 ， 截 断 并 不 是 看 起 来 那样 是 完全 人 为 的 。 除 非 递归 网 络 是 不 稳定 
的 ， 对 于 导数 8(1)/aw (1 应 该 收敛， 这 是 因为 时 间 上 非常 靠 后 的 计算 对 应 于 更 高 的 反馈 能 
力 (粗略 地 等 于 sigmoid 斜率 乘 以 权 值 ) 进 行 的 。 在 任何 情况 下 ， 截 断 深 度 h 应 该 大 到 足以 产 
生 接近 实际 值 的 导数 。 这 就 要 求 值 h 有 一 个 低 的 下 界 。 例 如 ， 把 动态 驱动 递归 网 络 用 于 引 
S218 iE (idle-speed) 4 HAY , h = 30 是 一 个 完成 学 习 任务 的 相当 保守 的 选择 (Puskorius et al., 
1996)。 

为 一 实际 问题 需要 讨论 。 本 节 讨 论 的 通过 时 间 的 反 向 传播 的 展开 过 程 提供 一 个 利用 相似 
层 随 时 间 前 向 处 理 的 级 联 描绘 它 的 有 用 工具 ， 这 样 可 以 帮助 我 们 深入 理解 过 程 是 如 何 作用 
的 。 然 而 这 个 优点 也 是 产生 缺点 的 原因 。 在 由 很 少 神经 元 组 成 的 相对 简单 的 递归 网 络 中 过 程 
运行 良好 。 但 是 ， 当 展开 过 程 应 用 到 那些 实际 中 常 遇 到 的 更 -一般 的 结构 时 ， 基 本 公式 ， 特 别 
是 式 (15.43)， 就 变 得 笨拙 。 在 这 种 情况 下 ， 更 好 的 方法 是 用 Werbos (1990) 描 述 的 更 一 般 的 
方法 ， 此 时 每 层 的 前 向 传播 每 一 个 表示 引发 一 个 相应 的 反 向 传播 表示 的 集合 。 这 个 方法 的 优 
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点 是 对 前 向 和 递归 (反馈 ) 连 接 的 相似 处 理 。 

为 描述 BPTT (h) 特殊 形式 的 机 理 ， 令 Fr ,表示 在 节点 1 的 网 络 输出 对 x 的 有 序 导数 
(ordered derivative) 。 为 了 导 出 反 向 传播 方程 ， 以 相反 的 次 序 考虑 前 向 传播 方程 。 从 每 个 方程 
根据 下 列 原理 推导 一 个 或 多 个 反 向 传播 表达 式 : 


If @ = ¢(b,c),then Fi, = Sor, and F}, = Sop (15.45) 
例 15.5 为 了 让 有 序 导 数 的 概念 清晰 ， 考 虑 下 列 两 个 方程 的 非 线性 系统 : 
x, = logu + x3 


y = x + 3x, 
变量 ” 在 两 个 方面 影响 输出 y: 直接 通过 第 二 个 方程 ， 和 间接 通过 第 一 个 方程 。y 对 %, 的 
有 序 导 数 由 包括 x; 对 y 的 直接 和 间接 的 作用 效果 的 总 因果 影响 所 定义 ， 可 表示 如 下 : 


By ,9Y OX | 2、 2 
Fa, = Jx, + ax, ax» = 3 + (2x, ) (3x3) = 3 + 6%, x2 


E 

在 编写 程序 时 ， 对 BPTT(h) 的 有 序 导 数 ， 式 (15.45) 的 右 侧 的 每 一 个 有 序 导数 值 被 加 到 左 侧 
的 原来 的 值 上 。 在 这 种 方法 中 ， 适 当 的 导数 从 网 络 中 的 一 个 给 定 的 节点 分 配 到 了 所 有 的 以 前 
向 方式 前 馈 该 节点 的 网 络 其 他 节点 和 突 触 权 值 ， 并 且 对 于 每 一 连接 中 可 能 出 现 的 延迟 做 出 适 
当 补 偿 。 这 里 描述 的 表达 式 的 简洁 减少 了 对 诸如 时 间 展 开 或 信号 流 图 的 可 视 化 的 需要 。 在 
Feldkamp and Puskorius(1998) 以 及 Puskorius et al.(1996) 中 ， 利 用 这 个 过 程 产 生 了 实现 BPIT 算 
法 的 伪 代 码 。 
15.8 实时 递归 学 习 

本 节 我 们 描述 另 一 种 称 为 实时 递归 学 习 (real-time recurrent learning, RTRL)!?! 的 学 习 算 
法 。 算 法 的 名 称 来 自 于 下 面 的 事实 ， 完 全 连接 网 络 的 突 触 权 值 调整 是 实时 的 ， 也 就 是 说 ， 
是 在 网 络 继续 执行 它 的 信号 处 理 功能 的 时 候 (Winiams and Zipser,1989)。 图 15-11 显示 这 样 
一 个 递归 网 络 结构 布局 。 它 由 9 个 神经 元 和 m 个 外 部 输入 组 成 。 网 络 有 两 个 不 同 的 层 : 
并 置 的 输入 -反馈 层 和 计算 节点 的 处 理 层 。 相 应 的 ， 网 络 突 触 连 接 也 是 由 前 馈 和 反馈 连 
接 构成 。 

网 络 状 态 空间 的 描述 由 方程 (15.10) 和 (15.11) 定 义 。 过 程 方 程 (15.10) 重 写成 以 下 扩展 形 
式 : 

p(w ECn)) 


x(n +1) =| p(w/&(n)) (15.46) 


p(w, &(n)) 
其 中 假设 所 有 的 神经 元 有 相同 的 激活 函数 oC) (q+m+1)x1 HE w, 是 递归 网 络 的 神经 
元 i 的 突 触 权 值 向 量 ， 即 


Top = 1,2,.…,g (15.47) 
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状态 
向 量 
x(n) 


输出 向 量 
y(n + 1) 





图 15-11 用 于 描述 RTIRL 算法 的 完全 连接 递归 网 络 
其 中 w,,, 和 w, ,分 别 是 转 置 矩阵 WwW 和 Wi 的 第 ) 列 。(g + m+1) x1 向 量 &(n) 定 义 为 


E(n) = [p (15.48) 


u(n) 
其 中 x(n) di g x 1 状态 向 量 ，u(n) 是 (m+1) x1 输 入 向 量 。a(n) 的 第 一 个 元 素 是 + 1， 对 应 
的 wy 的 第 一 个 元 素 等 于 应 用 于 神经 元 / 的 偏 置 b。 
为 表达 简单 起 见 ， 引 入 新 的 矩阵 A,(n)，U,(n) 和 (nn)， 分别 描 述 如 下 : 
1.A,(n) 是 状态 向 量 x(n) 关 于 权 值 w, 的 偏 导 数 所 构成 的 g x (gq + m + 了) 矩阵 ; 





Aj(n) = extn) y = 1,2,.…,9g (15.49) 
2.U;(n) 是 gx(g+ m+1) 和 矩阵 ， 除 了 第 j 行 等 于 向 量 E(n) 外 ， 其 他 行 都 为 0: 
0 
U(n) = EOE = 1,2,.…,g (15.50) 
0 


3.(n) 是 gxg 的 对 角 和 矩阵 ， 它 的 第 个 对 角 元 素 是 激活 函数 对 其 自 变 量 的 偏 导数 ， 
在 WwW&(n) 处 计算 ; 
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Dn) = diag g (w ECn)), sp (w/E(n)) ,p(w (2) )) (15.51) 
有 了 这 些 定义 ， 就 可 以 对 式 (15.46) 关 于 w 求 导 。 用 微 积分 的 链 式 法 则 ， 得 到 下 列 递归 公 
式 : 
Aj(n +1) = @n)LW(n)A(Cn) + U,(n)], J = 1,2,…,g (15.52) 
这 个 递归 公式 描述 实时 递归 学 习 过 程 的 非 线 性 状态 动力 学 ( 即 状态 演化 )。 
为 了 完成 描述 这 个 学 习 过 程 ， 我 们 需要 将 和 矩阵 Aj (n) MRE HT w 的 梯度 相 联系 。 
为 此 ， 首 先 用 度量 方程 (15.11) 定 义 px 1 误差 向 量 : 


e(n) = d(n) - y(n) = d(n) - Cx(n) (15.53) 
根据 e(n) 定 义 的 平方 误差 瞬间 和 为 
Eln) = Fe (n)eln) (15.54) 
学 习 过 程 的 目标 是 极 小 化 由 对 所 有 时 间 n 的 6(n) 求 和 所 得 到 的 代价 函数 ， 即 
Coni = = 之 Eln) 
为 完成 这 个 目标 ， 使 用 最 陡 下 降 方法 ， 这 就 需要 梯度 矩阵 的 知识 ， 可 写 为 


24n) 





Vo Eu = pw = 2 = UV €(n) 
其 中 V 。8(m) 是 8(n) 对 权 值 矩阵 W = arr 如 果 需 要 ， 可 以 继续 使 用 这 个 方程 并 且 
得 到 递归 网 络 的 突 触 权 值 的 更 新 方程 ， 并 且 不 用 近似 。 但 是 ， 为 了 得 到 一 个 实时 的 训练 递归 
网 络 使 用 的 学 习 算 法 ， 必 须 使 用 一 个 梯度 的 瞬时 估计 值 ， 即 V ,8(z)， 这 就 导致 对 最 陡 下 降 
方法 的 近似 。 
回 到 式 (15.54)， 以 它 作为 最 小 化 的 代价 函数 ， 求 它 对 权 值 向 量 w 的 微分 ， 得 到 


a€(n) _ (29622) eln) =- (3) e(n) =- CA;(n)e(n),j = 1,2, 


Iw, 
(15.55) 
因此 应 用 于 神经 元 j 的 突 触 权 值 向 量 w (mn) 的 调整 由 
Aw(n) =- p - CAi(n)e(m = 1,2g (15.56) 


决定 ， 其 中 | 是 学 习 率 参数 ，A,(n) 由 式 (15.52) 决 定 。 

现在 仅 剩 下 确定 开始 学 习 过 程 的 初始 条 件 。 为 此 令 

A,(0) = 0 对 所 有 j (15.57) 

这 意味 着 递归 网 络 的 初始 状态 停留 在 一 常态 。 

表 15- 1 概括 实时 递归 学 习 算 法 。 这 里 所 描述 的 算法 公式 可 应 用 到 任意 的 对 其 自 变 量 
可 微 的 激活 函数 p(' )。 对 于 特殊 情况 ， 取 双 曲 线 切线 方程 形式 的 sigmoid 非 线性 函数 ， 我 
们 有 

a(n +1) = ev(z)) = tanh(y,(n)) 


A g (4,(n)) = para - sech’(v,(n)) =1- x(n 41) (15.58) 


其 中 vj(n) 神 经 元 j 的 诱导 局 部 域 ，x, (n+ 了 1) 是 它 在 n +1 时刻 的 状态 。 
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表 15-1 实时 递归 学 习 算法 小 结 
参数 : 
m= 输入 空间 维 数 
9 = 状态 空间 维 数 
p= 输出 空间 维 数 
Wj = 神经 元 7 的 突 触 权 值 向 量 ,，j = 1，2，…，9。 
初始 化 : 
1. 对 算法 的 突 触 权 值 赋予 从 一 个 均匀 分 布 中 选 出 的 较 小 值 。 
2. 置 状 态 向 量 x(0) 的 初始 值 为 x(0) = 0。 
3. 对 j=1，2，…，9， 置 Ai(0) =0。 
HH: Mn=0, 1,2, =, 计算 
Aj(n +1) = O(n) IW, (n)Aj(n) + Un) ] 
e(n) = d(n) ~ Cx(n) 
Aw,(n) = nCA,(n)e(n) 
x(n)，Aj(n)，Uj(n) 和 地 (n) 的 定义 分 别 由 式 (15.46)，(15.49)，(15.50) 和 (15.51) 给 出 。 


使 用 瞬时 梯度 V ,%(n) 意 味 着 实时 递归 学 习 算法 偏离 建立 在 真正 梯度 V ,8 基础 上 的 非 
实时 算法 。 但 是 ， 该 偏离 和 在 第 4 章 里 用 的 训练 多 层 感知 器 的 反 向 传播 算法 很 相似 。 虽 然 实 
时 递归 算法 不 保证 和 总 的 误差 函数 ,a(W) 对 权 值 算 阵 W 的 负 梯 度 精确 一 致 ， 但 实时 和 非 实 
时 的 实际 差别 很 小 ; 在 算法 速率 参数 1 减少 时 它们 近似 相等 。 与 真正 梯度 偏离 的 行为 所 导致 








的 潜在 的 最 严重 的 结果 ， 是 观察 的 轨道 (由 绘制 (nm) 对 权 值 矩阵 W(nm) 的 元 素 的 图 形 获得 ) [280 








可 能 取决 于 算法 产生 的 权 值 改变 ， 这 也 可 看 作 另 一 个 反馈 源 并 从 而 导致 系统 不 稳定 性 。 让 参 
数 小 到 让 权 值 变化 的 时 间 尺 度 远 小 于 网 络 的 运行 的 时 间 尺 度 ， 可 以 避免 这 个 效果 。 
例 15.6 针对 图 15-6 有 两 个 输入 和 一 个 输出 的 完全 递归 网 络 ， 本 例 我 们 提出 RTRL 算 
法 的 公式 。 网 络 有 三 个 神经 元 ， 由 例 15.1 ARE W, W, 和 C 构成 。 
由 于 m=2，g =3， 从 式 (15.48) 可 得 
xi(n) 
x(n) 
x(n) 
1 
u(n) 
u(n) 


让 Aju (n) RERE A;(n) 的 第 Al 个 元 素 。 利 用 式 (15.52) 和 (15.56) 分 别 得 到 


E(n) = 


Xun +1) = pwn) D wi nNaln) + d,6:(n)] 
Awy(n) = n(d,(n)) 一 x(n) )Ayy (nr) 
其 中 8,42 Kronecker delta， 即 上 = 了 时 为 1， 其 他 情况 下 为 0; (G, k)=1, 2,3 Ml =1, 
2，…,6。 图 15- 12 表示 一 个 决定 权 值 调整 Awy (n) 演 化 的 敏感 度 图 。 注 意 W, = lw}, G, La 
i)=1, 2, 3 和 W,= {wl, j=l, 2, 3, 1=4, 5, 6, a 
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图 15-12 图 15-6 的 全 连接 递归 网 络 敏感 度 图 
注意 : 标号 为 &(n) 的 三 个 节点 都 看 作 单 输 入 


教师 强制 


递归 网 络 训练 中 经 常用 到 的 策略 是 教师 强制 (teacher forcing) (Williams and Zipser, 1989， 
1995); 在 自 适 应 性 滤波 中 ， 教 师 强 制 称 为 方程 - 误差 (equation-error) 方 法 (Mendel,1995)。 基 
本 上 教师 强制 涉及 在 网 络 的 训练 过 程 中 每 当期 望 响 应 可 用 时 ， 在 随后 网 络 动态 行为 的 计算 中 
利用 期 望 响应 ( 即 目标 信号 ) 蔡 代 实 际 神经 元 的 输出 。 虽 然 教师 强制 是 在 RTRL 算法 下 描述 
的 ， 它 的 用 法 可 以 应 用 到 另外 的 算法 。 但 是 ， 为 了 让 它 是 可 应 用 的 ， 问 题 中 的 神经 元 必须 将 
它 的 输出 反馈 回 网 络 。 

教师 强制 的 良好 效果 包括 (Williams and Zipser, 1995 ) 

。 教师 强制 可 以 使 网 络 训练 更 快 。 原 因 在 于 使 用 教师 强制 等 于 假设 网 络 已 经 知道 属于 

那些 使 用 教师 强制 的 神经 元 的 任务 的 早期 部 分 。 

。 教师 强制 可 以 作为 训练 期 的 校正 机 制 。 例 如 ， 网 络 的 突 触 权 值 可 能 有 正确 的 值 ， 但 

是 由 于 某 种 原因 网 络 可 能 运行 在 状态 空间 的 错误 区 域 。 显 然 在 这 种 情况 下 ， 调 整 突 
触 权 值 是 错误 的 策略 。 

基于 梯度 的 学 习 算法 使 用 教师 强制 实际 上 是 优化 与 不 用 教师 强制 不 同 的 代价 函数 。 教 师 

强制 算法 和 无 强制 算法 产生 不 同 的 解 ， 除 非 有 关 的 误差 信和 号 为 0， 这 时 勿 需 学 习 。 


15.9 Kalman 滤波 器 


正如 前 面 提 及 的 一 样 ， 基 于 梯度 下 降 的 连续 学 习 ， 例 如 实时 递归 学 习 算法 ， 由 于 依赖 梯 
度 的 瞬时 估计 ， 一 般 是 很 慢 的 。 将 递归 网 络 的 监督 训练 看 做 是 最 优 滤波 问题 ， 可 以 克服 这 个 
严重 的 局 限 ， 它 的 方法 是 以 回溯 到 学 习 过 程 的 第 一 次 迭代 的 方式 递归 利用 包含 在 训练 数据 中 
的 信息 。 这 里 描述 的 思想 就 是 Kalman 滤波 的 实质 (Kalman, 1960). Kalman 滤波 器 新 颖 的 特点 
Al: 
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。 理论 是 根据 状态 空间 的 概念 提出 的 ， 可 以 有 效 利 用 包含 在 输入 数据 中 的 信息 。 

。 递归 计算 状态 的 估计 ; 即 每 个 更 新 的 状态 估计 是 依靠 以 前 的 估计 和 当前 可 用 数据 计 

算出 的 ， 因 此 只 有 以 前 的 估计 需要 储存 。 

这 一 节 我 们 给 出 Kalman 滤波 器 理论 5 TE I, EF FAO IE Kalman 滤 
波 器 。 理 论 的 发 展 常常 开始 于 线性 动态 系统 。 为 了 wn+tl) cil wn) Cn) d(n) 
扩展 到 非 线 性 动态 系统 ， 将 一 个 线性 化 的 形式 应 用 
于 系统 ; 后 一 部 分 的 讨论 推迟 到 下 一 节 。 

考虑 图 15-13 的 线性 离散 时 间 动 态 系 统 的 信号 
流 图 。 这 里 给 出 的 系统 的 时 间 域 描述 和 15.3 节 给 出 图 15-13 用 于 描述 Kalman 滤波 器 的 线性 


v(n) 


的 状态 空间 形式 相似 。 图 15-13 的 数学 表达 式 为 如 离散 时 间 动 态 系统 信号 流 图 
下 方程 : 
win +1) = wn) (15.59) 
d(n) = C(n)w(n) + vln) (15.60) 


过 程 方程 (process equation) (15.59) Hl $ 5 42 (measurement equation) (15.60) MATH uF : 
。 w(n) 是 系统 的 状态 向 量 
。 d(n) 是 观察 向 量 
。 Cn) EEEH 
。 vn) EERE 
在 过 程 方程 (15.59) 中 作 了 两 个 简化 的 假设 。 首 先 ， 过 程 方程 是 无 噪声 的 。 其 次 ， 系 统 在 时 
刻 n+1 M 的 状态 之 间 的 转换 矩阵 等 于 单位 矩阵 。 在 图 15-13 我 们 使 用 了 状态 的 一 个 新 符 
号 ， 其 原因 在 下 一 节 会 十 分 明显 。 
Kalman 滤波 问题 可 陈述 如 下 : 
利用 由 向 量 集 [d(i) ,组 成 的 所 有 观测 数据 ， 对 于 每 一 个 nel 寻找 状态 Wi) MR DH 
差 平方 估计 。 
注意 状态 向 量 的 信息 是 不 可 用 的 。 如 果 i = n， 该 问题 称 为 滤波 ， 如 果 i > n， 被 称 为 预测 ， 
如 果 1 < i<n 称 为 平滑 。 问 题解 的 导出 建立 在 下 列 假设 的 基础 上 (除了 对 系统 线性 性 的 假 
设 ): 
1. 度量 噪声 v(n ) 是 均值 为 0 的 白 噪声 ， 其 协 方差 矩阵 定义 为 
r R(n), n=k 
Evao fg eT 
2. 对 所 有 n=O, RAPE w(0) 与 v(n) 不 相关 。 
为 了 得 到 Kalman 滤波 器 的 巧妙 推导 ， 我 们 将 使 用 新 息 的 概念 (Kailath, 1968 )。 特 别 地 ， 
与 观测 向 量 d(n) 有 关 的 新 息 过 程 (innovations process) 定 义 为 
a(n) = d(n) -d(n|n-1) (15.62) 
其 中 d(nln-1) 是 d(m) 的 最 小 均 方 误差 估计 ， 给 出 观测 向 量 从 时 间 n= 1 开始 并 且 扩展 至 时 
间 n 一 1 的 所 有 过 去 值 。 对 于 “最 小 均 方 误差 估计 ”我 们 是 指 最 小 化 对 于 d(n) 测 得 的 均 方 误差 
的 特定 估计 。 新 息 过 程 a(n) 可 看 做 是 包含 在 d(n) 但 不 在 (nin - 1) 的 预测 部 分 的 新 信息 的 
测量 。 新 息 过 程 a( n) 有 如 下 的 优点 (Kailath,1968): 


(15.61) 
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1. 与 d(n) 有 关 的 新 息 过 程 a(n) 与 过 去 的 所 有 的 观测 值 9(1),d(2),…,d(n 1) 无 关 ， 即 
Ela(n)d’(k)] = 0 WFle<eken-1 
2. 新 息 过 程 由 一 系列 互相 无 关 的 随机 疝 量 构成 ， 即 
E[a(n)a'(k)] =0 对 于 1 三 大 过 -1 
3. 代表 观测 数据 的 随机 向 量 序列 和 代表 新 息 过 程 的 随机 向 量 序列 一 一 对 应 ， 即 
1d(1),d(2),…,d(n)i={o(1),0(2),… ,a(n)| (15.63) 
现在 不 用 损失 任何 信息 我 们 就 可 以 用 不 相关 的 新 息 序 列 代替 相关 的 观测 数据 序列 。 给 定 新 息 
集 ia(k) i, 表示 在 时 间 的 状态 估计 。 由 此 Kalman 滤波 器 推导 变 得 简单 了 。 在 此 基础 上 进 
行 分 析 ， 我 们 可 以 导出 标准 Kalman 滤波 器 ， 如 表 15-2 中 的 小 结 。 
表 15-2 Kaiman 滤波 器 小 结 
对 mn=1，2，3，…， 计 算 
T(n) = [C(n)K(n,n - 1C7Cn) + RCOn)]-! 
G(n) = K(n,n - 1)C7(n)E(n) 
a(n) = y(n) - C(n) Wn in -1) 


W(n+1)n)= Wn} n-1)+ Gln)a(n) 
K(n + 1,2) = K(n,n- 1) - Gn)C(n)K(n,n - 1) 


这 里 有 三 个 新 的 量 需 要 定义 : 
。 K(n，n 一 1) 是 误差 协 方差 和 矩阵， 定义 为 


K(n,n -1) = Ele(n,n- 1)e (n,n — 1)] (15.64) 
其 中 状态 误差 E(n，n 1) 定义 如 下 
e(n,n —1) = wn)- Wnln-1) (15.65) 


其 中 w(n) 是 实际 状态 ，W(n1n -~ 1) 是 建立 在 直到 时 间 n - 1 为 止 的 过 去 观测 数据 基 
础 上 的 单 步 预测 值 。 
。T(n) 是 关于 滤波 估计 误差 e(n) 和 新 息 aln) AEKA k -T (conversion factor), Bp 
eln) = R(n)T(n)a(n) (15.66) 
其 中 e(n) =d(n) -d(nin) (15.67) 
d(n1n) 是 在 直到 时 间 n 为止 的 观测 数据 下 的 观测 向 量 d(n) 的 估计 。 
° G(n) 是 Kalman 增益 (gain) ， 用 于 决定 更 新 状态 估计 的 校正 量 。 
表 15-2 小 结 的 Kalman 滤波 器 类 型 被 设计 用 于 传播 误差 的 协 方差 矩阵 K(n,n - 1)。 因 此 
这 个 算法 称 为 协 方差 Kalman 滤波 算法 (covariance Kalman filtering algorithm) o 


平方 根 Kalman 滤波 器 


协 方差 Kaman 滤波 器 会 有 严重 的 数值 困难 。 特 别 当 更 新 矩阵 K(n + 1,n) 是 由 Riccati 方 
程 决定 时 ， 它 在 表 15-2 的 最 后 一 行 定义 。Riccati 方程 的 右边 是 两 个 矩阵 量 的 差 。 除 非 在 算 
法 的 每 一 次 迭代 中 使 用 的 数值 精确 度 都 足够 高 ， 否 则 从 这 个 计算 所 得 到 的 更 新 矩阵 KCn + 
1,n) 可 能 不 为 非 负 定 的 。 很 明显 这 样 的 解 是 不 可 接受 的 ， 因 为 K(n + 1,m) 代 表 协 方差 矩阵 ， 
由 定义 它 是 非 负 定 的 。 由 于 使 用 有 限 字 长 算术 而 产生 的 数值 不 准确 性 ， 进 而 导致 Kalman 渡 
波 器 的 非 稳定 行为 称 为 发 散 现 象 (divergence phenomenon)。 
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XP aA WA eR RE Or EEREN R K” (nn - 1) ANE K(n,n -D A 
来 解决 。 具 体 地 ， 使 用 Cholesky 因 式 分 解 ， 我 们 将 K(n,n - 1) #78 A (Golub and Van Loan, 
1996 ): 
K(n,n - 1) = K” (n,n - 1)K™(n,n - 1) (15.68) 
这 里 K” (n,n -1) 是 一 个 下 三 角 和 矩阵 ，K”™(n,n -1) 是 它 的 转 置 。 在 线性 代数 中 ，Cholesky 
因子 K”(n,n- 1) 通常 指 的 是 K(n,n - 1) 的 平方 根 。 因 此 建立 在 Cholesky 因 式 分 解 基础 上 
的 Kalman 滤波 器 被 称 为 平方 根 Kalman RRB, BBW AE, BEATER K? (n,n -1) 
K” (n,n- 1) 为 不 确定 的 可 能 性 大 大 减少 ， 因 为 任何 方 阵 和 它 转 置 矩 阵 的 乘积 总 是 正定 的 。 


15.10 AI RAY Kalman 滤波 器 


我 们 对 Kalman 滤波 器 的 主要 兴趣 在 于 利用 它 的 独 有 特性 来 执行 递归 网 络 的 监督 训练 (7 。 
由 于 递归 网 络 结构 的 复杂 性 (例如 递归 多 层 感知 器 )， 问 题 关键 在 于 如 何在 不 损害 Kalman YE 
波 器 理论 应 用 的 同时 又 让 该 方法 计算 上 可 行 。 找 到 的 答案 是 使 用 一 个 扩展 Kalman 滤波 器 的 
解 粳 形 式 ， 其 计算 的 复杂 性 适应 于 可 利用 的 计算 资源 和 和 特定 的 应 用 (Puskorius and 
Feldkamp, 1991) 。 
考虑 建立 在 具有 下 个 突 触 权 值 和 5p 个 输出 节点 的 静态 多 层 感 知 器 基础 上 的 递归 网 络 。 
令 向 量 w(n) 表 示 在 时 间 n 时 整个 网 络 的 突 触 权 值 。 根 据 自 适 应 滤波 器 的 思想 ， 网 络 的 状态 
空间 方程 可 以 建 模 如 下 (Singhal and Wu, 1989; Haykin, 1996 ): 
wn+1) = win) (15.69) 
d,(n) = c(w(n),u(n),v(n)) + v(n) (15.70) 
这 里 权 值 向 量 wn EARSKEA. BFA BRM c( .，，) 的 第 二 个 向 量 参数 u(n) 和 和 
第 三 个 向 量 参数 v(m ) 分 别 表示 输入 向 量 和 回归 节点 激活 的 向 量 。 实 际 上 式 (15.69) 指 出 模型 
停留 于 最 佳 状 态 ， 转 换 矩 阵 在 时 间 n 将 w(m) 转 换 为 在 时 间 n+1 的 w(n+1), CERNE 
阵 。 最 佳 条 件 是 指 递归 网 络 误差 曲面 的 局 部 或 全 局 最 小 。 模 型 非 线性 的 惟一 来 源 是 度量 方程 
(15.70)。 向 量 d, 表示 模型 的 期 望 响应 。 由 于 式 (15.70) 表 示 模 型 的 输入 - 输出 方程 ， 可 知 
c(*,*,*) 表 示 多 层 感 知 器 的 输入 层 到 输出 层 的 整个 非 线 性 性 。 式 (15.70) 的 噪声 度量 向 量 
v(n) 假 设 是 一 个 0 均值 和 对 角 协 方差 矩阵 R(n) 的 多 元 白 噪声 过 程 。 
在 应 用 扩展 的 Kalman 滤波 器 到 递归 网 络 时 ， 必 须 注意 “状态 ”是 在 两 种 不 同 的 环境 下 使 
用 的 术语 ; 
。 系统 演化 通过 自 适应 性 滤波 ， 这 显示 在 训练 中 对 递归 网 络 权 值 的 改变 ; 向 量 w(n) 表 
。 递归 网 络 自身 的 运行 ， 例 如 函数 ec 所 依赖 的 回归 节点 激活 ; 向 量 v( mn) 表示 这 第 二 种 
通过 比较 式 (15.69) 和 (15.70) 描 述 的 模型 与 式 (15.59) 和 (15.60) 的 线性 动态 模型 ， 可 以 
看 到 这 两 个 模型 的 惟一 差别 在 于 度量 方程 的 非 线性 的 形式 。 为 了 应 用 Kalman 滤波 器 理论 到 
刚 描述 的 状态 空间 模型 ， 我 们 必须 首先 线性 化 式 (15.70) ， 并 改写 为 
d(n) = C(n)w(n) + v(n) (15.71) 
的 形式 ， 其 中 C(n) 是 线性 模型 p x W 的 度量 矩阵 ， 用 d(z) 区 别 于 式 (1$.70) 的 dz)。 线 
性 化 包括 整个 网 络 的 p 个 输出 对 模型 更 个 权 值 的 偏 微分 ， 表 示 为 
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Ja lea 8 
Ow, Aw, I Wwy 
dc, 3c, wee Ie, 
Clin) =| 9w 3w, 3 wy (15.72) 
dw, Iw, Iwy 


其 中 c, i=1, 2, 0, p 表示 非 线性 函数 e(w(n)，u(n)，v(n)) 的 第 i 个 元 素 。 式 (15.72) 
的 偏 微分 在 w(n) =W(n) 处 计 值 ， 其 中 充 (n) 是 在 时 刻 n 权 值 向 量 w(n) 的 估 值 ， 它 由 扩展 
的 Kalman 滤波 器 在 给 出 直到 时 刻 n - 1 的 观察 数据 基础 上 计算 出 来 (Haykin,1996 )。 在 实现 
时 ， 这 些 偏 微分 是 由 通过 时 间 的 反 向 传播 算法 或 实时 递归 学 习 算法 计算 出 来 的 。 实 际 上 ， 扩 
展 的 Kalman 滤波 器 算法 建立 在 15.7 节 或 15.8 节 中 提 到 的 这 两 种 算法 中 的 一 个 或 另 一 个 的 基 
mE. RERE e 必须 是 一 个 关于 刚才 提 到 的 递归 节点 激活 的 函数 。 事 实 上 ， 对 于 单 层 递 归 
RiR, JERE C(n) 能 够 由 矩阵 Aj(n) 的 元 素 组 成 ， 就 像 式 (15.52) 中 的 RTRL 算法 所 计算 的 一 
HE. AE, ERRE C(n) 是 网 络 输出 对 网 络 自由 参数 的 动态 导数 矩阵 。 正 像 在 时 间 步 (n+ 
1) 时 网 络 递归 节点 的 激活 是 一 个 对 前 面 的 时 间 步 n 得 到 的 相应 值 的 函数 一 样 ， 按 照相 似 的 
方法 ,我们 发 现在 时 间 步 (n + 1) 时 ， 递 轨 节 点 激活 对 网 络 自由 参数 的 导数 就 像 在 RTRL 方程 
所 表示 的 那样 ， 为 前 面 的 时 间 步 ”得 到 的 相应 值 的 函数 。 

假设 网 络 的 突 触 权 值 被 分 为 g 组 ,例如 ,第 i 组 有 个 神经 元 。 在 式 (15.72) 定 义 的 p 
x W ERER C 是 网 络 输 出 对 所 有 网 络 权 值 的 导数 矩阵 。 和 矩阵 C(n) 对 于 输入 向 量 u(n) 的 
依赖 关系 由 式 (15.72) 所 隐 仿 定义。 这 样 定 义 的 矩阵 C(n) 包 括 对 于 扩展 的 Kalman 滤波 器 的 
任何 解 兢 形式 所 必需 的 导数 。 例 如 ， 如 果 使 用 全 局 扩展 Kalman 滤波 器 (global extended Kalman 
filter, GEKF )〈 即 我 们 没有 解 耘 ) ，g = 1， 并 且 整 个 矩阵 C(m ) 由 式 (15.72) 所 定义 。 在 另 一 方 
面 ， 如 果 使 用 解 耦 扩展 Kalman 滤波 器 (decoupled extended Kalman filter, DEKF ) ， 那 么 “全 局 " 度 
EAE C(n) 必 须 调整 使 得 网 络 中 一 个 给 定 的 神经 元 的 权 值 被 分 在 一 个 组 ， 在 C(n) 内 部 作 
为 一 个 单独 块 ， 其 中 每 一 个 块 被 标记 为 i = 1，2，…，g。 对 于 后 者 ， 和 矩阵 C(x) 仅仅 是 单个 
C; 的 并 置 ， 如 下 面 所 示 : 

C(n) = [Ci(n),G(n),…,C,(n)] 

不 管 解 耦 程度 如 何 ， 整 个 矩阵 C(n) 必 须 如 式 (15.72) 所 定义 的 那样 计算 。 

现在 开始 应 用 表 15-2 的 Kalman 滤波 器 算法 。 特 别 地 ， 对 于 式 (15.69) 和 (15.71) 的 线性 
化 动态 模型 ， 我 们 有 (Puskorius and Feldkamp, 1991 ) : 


Pn) = [XK (n,n = DEM n) + RC)” (15.73) 
G,(n) = K,(n,n - 1)C"(n)T(n) (15.74) 

a(n) = dln) -dr In-1) (15.75) 
&(n+1lin)=Ẹ0;(nlin-1)+G,;(n)aln) (15.76) 
K,(n+1,n) = K;(n,n - 1) - G,(n)C,(n)K,(n,n ~ 1) (15.77) 


其 中 1=1，2，…，g。 式 (15.73) 至 (15.77) 的 参数 向 量 和 信和 号 向 量 描述 如 下 : 
T(n)=pxp 矩阵， 表示 整个 网 络 的 全 局 转换 因子 
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G,(n) = W; x p ŒE, RIRS i 组 神经 元 的 Kalman 增益 
a(n) =px1 向 量 ， 表 示 线 性 化 系统 的 期 望 响 应 d(n) 和 它 的 估计 d(nin- DMA 
估计 d(nln - 1) 由 网 络 停留 在 状态 {W, (nln -1)1 时 网 络 的 实际 输出 y(n) 表 示 ， 
实际 输出 y(n) 为 网 络 对 输入 u(n) 产 生 的 响应 
Wi(nin-1l)=Wxil 向量 ,表示 在 给 定 直 到 时 间 n -1 为止 的 观察 数据 情况 下 ， 对 于 第 
i 组 的 权 值 矩阵 w;(n) 的 估计 
Ki(n,n-1)=k, xk, HA, ERA i 组 神经 元 的 误差 协 方差 算 阵 
包括 在 (15.73) 的 全 局 转换 因子 T(n) 定 义 中 的 求 和 说 明 扩 展 的 Kalman Ye UE BS AYRE RE AR 
很 重要 的 一 点 ， 就 是 理解 在 DEK 算法 里 解 看 实际 决定 全 局 误差 协 方差 算 阵 (n,n - 1) 
中 哪些 特定 元 素 需 要 保持 和 和 更新。 实际 上 ， 所 有 计算 的 节省 是 由 于 忽略 与 全 局 误差 协 方差 矩 
E K(n,n -1) 的 那些 非 对 角 块 有 关 的 保持 和 更 新 。 
由 式 (15.73) 至 (15.77) 编 码 的 DEKF 算法 最 小 化 代价 函数 


Eln) = Slew li? (15.78) 
这 里 e(j) 是 误差 向 量 ， 定 义 为 
ej) = aG) - yG), j=1,2,,n 
y(7) 是 网 络 使 用 直到 时 间 j( 包 括 时 间 j) 的 所 有 可 用 信息 的 实际 输出 。 注 意 ， 一 般 情况 下 ， 
e(j) <a(j). 


人 工 过 程 噪声 


式 (15.69) 至 (15.70) 的 非 线性 动态 系统 是 非 强制 的 ， 即 过 程 方程 (15.69) 没 有 外 部 输入 。 
这 个 缺陷 可 能 导致 严重 的 数值 困难 ， 因 此 在 有 限 精 度 环 境 运 行 时 产生 Kalman 滤波 器 发 散 。 
如 15.9 节 解释 的 ， 发 散 现 象 可 以 用 平方 根 滤波 解决 。 
习 一 规避 发 散 现象 的 方法 是 使 用 启发 式 的 机 制 ， 涉 及 对 过 程 方程 人 为 添加 过 程 噪声 ， 表 
示 为 
wi(n+1) = w,(n) +0,(n), i = 1,2,--,¢ (15.79) 
其 中 o (=) 即 过 程 噪声 。 假 设 @, (m) 是 一 零 均值 和 对 角 协 方差 矩阵 为 Qi (mn) 的 多 变量 白 品 
声 。 人 为 添加 过 程 噪声 w,(n) 实 际 上 是 与 度量 噪声 y(n) 和 网 络 初始 状态 独立 的 。 添 加 @, (n) 
到 式 (15.79) 所 得 到 的 效果 是 修改 用 于 误差 协 方差 矩阵 更 新 的 Riccati 方程 如 下 (Haykin， 
1996) ; 
K;(n +1,n) = K,(n,n—1) - G,(n)C;(n)K;(n,n - 1) + Q,(n) (15.80) 
假设 Q;(n) 对 于 所 有 的 i 都 足够 大 ， 于 是 K;(n + 1,n) 对 于 所 有 的 n 都 是 非 负 定 的 。 
除了 克服 数值 上 的 困难 ， 人 为 添加 过 程 噪声 w,(n) 还 有 下 列 有 益 效果 : 在 训练 过 程 中 ， 
算法 过 程 有 较 小 可 能 性 陷 和 人 局 部 最 小 。 这 就 导致 在 收敛 速度 和 解 的 质量 方面 使 训练 性 能 显著 
提高 。 


DEKF 算法 小 结 
R 15-3 表示 在 式 (15.73) 至 (15.76) 及 (15.80) 基 础 上 的 DEKF 算法 小 结 。 这 个 表 也 包括 
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算法 的 初始 化 细节 。 

现在 可 以 对 扩展 的 Kalman 滤波 器 作 最 终 评价 如 下 。 表 15-3 小 结 的 DEKF 算法 指 的 是 所 
有 可 能 的 信息 保持 学 习 过 程 (information - preserving leaming procedure) 的 整个 算法 族 ， 包 括 
GEKF。 作 为 一 般 的 法 则 ， 在 解 的 质量 方面 我 们 期 望 DEKF 产生 的 性 能 能 接近 GEKF 但 不 希望 
超过 它 的 性 能 。 另 一 方面 ，DEKF 计算 上 要 求 比 GEKF 要 少 。 虽 然 DEKF 有 计算 上 的 优点 ， 
现在 计算 机 速度 和 内 存 的 增加 使 得 GEKF 对 于 特定 的 问题 的 计算 成 为 可 能 ， 特 别 是 在 递归 网 
络 的 离线 训练 时 。 


表 15-3 DEKF 算法 小 结 





初始 化 : 
1. 对 递归 网 络 的 突 触 权 值 赋予 从 一 个 均匀 分 布 中 选 出 的 较 小 值 。 
2. 置 协 方差 矩阵 Q(n)( 表 示人 为 插入 的 过 程 噪声 w(n)) 等 于 10-5 到 1072, 
3.K(1，0) = 6-1I，5= 小 的 正常 数 。 
计算 : 
对 nm=1，2，…， 计 算 


g 
P(n) = [ 16,2) K;(a, 2 - DCT(n) + R(n)] 7! 
T= 


G;(n) = K;(n,n - DCT (nT(n) 
a(n) = d(n) ~d(n | n-1) 
Wn+lin)= &,(n | n-1)4+G,(n)aln) 
K,(n + 1,0) = K;(n,n ~ 1) - G(n)C;(n) Ki (n,n - 1) + Qi(n) 
其 中 第 三 行 G(a1z - 1) 为 网 络 对 输入 向 量 ua(z) 产 生 的 实际 输出 向 量 yn) 





TE: 对 g =1( 即 无 解 而 )，DEKF 算法 变 为 全 局 扩展 的 Kalman 滤波 (GEKF) 算 法 
计算 复杂 性 


表 15-4 提出 本 章 所 讨论 的 三 种 学 习 算 法 计算 复杂 性 的 比较 : 通过 时 间 的 反 向 传播 ， 实 
时 递归 学 习 ， 解 耦 扩展 Kalman 滤波 器 。 它 们 计算 复杂 性 依次 增加 。 


表 15-4 用 于 递归 网 络 的 学 习 算法 的 计算 复杂 性 比较 





S = 状态 数 
W = 突 触 权 值 数 
了 = 训练 序列 长 度 
1. 通过 时 间 的 反 向 传播 (BPTT) 
。 时 间 需 求 ， 存 储 空间 需求 : 0( 殉 + SL), O( WL+ SL) 
2. 实时 递归 学 习 (RTRL) 算 法 
。 WAR, FEZIER: OC WSL), OC WS) 
3. SERB FE Kalman 滤波 (DEKF) 算 法 : 
。 在 最 小 值 处 ，DEKF 利用 RTRL 或 BPTT 计算 导 数 (在 时 间 和 空间 ) 花 费 同样 的 代价 ; 对 BPTT， 时 间 和 空间 要 
求 为 网 络 输出 数 p 乘 以 标准 BPIT 计算 单一 标量 误差 项 的 导数 所 花 的 代价 。 
。 另外 ，DEKF 要 求 的 时 间 复 杂 性 为 O W +p DE RE FERS OCDE), Beh g AART k 为 
第 i 组 神经 元 数 。 当 只 有 一 个 权 值 组 时 ， 如 同 在 GEKF 中 一 样 ， 时 间 和 空间 存储 需求 分 别 变 为 OCW) AM 
OCW). 
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15.11 计算 机 实验 
这 个 实验 再 次 讨论 13.5 节 人 研究 的 非 线性 时 间 序 列 的 模拟 。 时 间 序 列 由 频率 调制 信号 定义 : 


x(n) = sin(n + sin(n’)) n = 0,1,2,°" 
我 们 将 研究 用 于 模拟 的 两 种 不 同 结构 : 
。 递归 多 层 感 知 器 (recurent multilayer perceptron, RMLP) 有 1 个 输入 节点 ，10 个 递归 神经 
元 的 第 一 隐藏 层 ，10 个 神经 元 的 第 二 隐藏 层 和 1 个 线性 输出 神经 元 。 
。 集中 时 滞 前 馈 网 络 (focused time lagged feedforward network, TLFN )， 包 括 20 个 抽 头 延迟 
时 间 记 忆 ， 和 由 10 个 隐 含 神经 元 和 1 个 线性 输出 神经 元 组 成 的 多 层 感 知 器 。 
RMLP 比 集中 TLFN 有 稍 多 的 突 触 权 值 ， 但 是 只 有 它 一 半 的 记忆 (10 个 递归 节点 和 20 个 抽 头 )。 
利用 DEKF 算法 对 RMLP 进行 训练 。 利 用 扩展 的 Kalman 滤波 器 的 两 种 形式 对 TLFN 进行 
训练 (1)GEKF 算法 ( 即 全 局 形式 )，(2)DEKF 算法 ( 即 解 耦 形式 ) 。 两 个 算法 的 细节 如 下 : 


。 GEKF 
ò= 用 作 初 始 化 误差 协 方差 矩阵 K(n, n- 1) 的 参数 
=0.01 
R(n) = 度量 噪声 wz) 的 协 方差 矩阵 : 开始 训练 时 人 (0) = 100， 在 训练 结束 时 退火 至 
R(n) =3 
Q(n) = ATHERE w(n) 的 协 方差 矩阵 ， 开 始 时 Q(0) = 10-*， 在 训练 结束 时 退火 
Z Q(n) =10°° 
R(n) 和 Q(n) 的 退火 在 训练 过 程 中 起 到 加 快 学 习 速度 的 作用 。 
° DEKF 
g = 组 数 
_ [7 用 于 RMLP 
11 用 于 集中 TLFN 


其 他 参数 和 GEKF 的 一 样 

训练 是 在 4000 个 样本 序列 上 进行 的 。 对 于 RMLP， 使 用 了 长 度 为 100 的 子 集 ， 在 整个 训 
练 过 程 中 ， 处 理 30 000 个 子 集 。 具 有 4000 个 样本 的 训练 集中 的 每 个 数据 点 处 理 了 大 约 750 
次 。 对 于 集中 TLFN， 在 训练 集中 的 每 个 数据 点 也 处 理 了 约 750 次 。 在 两 种 情况 下 ， 测 试 都 
对 300 个 数据 点 进行 。 

图 15-14 表示 利用 DEKF 算法 训练 的 RMLP 计算 出 的 单 步 预测 波形 9(n)。 这 个 图 也 包括 
实际 的 波形 y(n)。 两 波形 很 难 区 分 。 图 15- 15a 显示 由 RMLP 产生 的 预测 误差 

e(n) = y(n) - #(n) 

相应 的 由 算法 GEKF 和 DEKF 训练 的 集中 TLEN 产生 的 预测 误差 分 别 显示 在 图 15-15b 和 15- 
15c。 通 过 比较 图 15- 15 的 结果 及 13.5 节 的 模拟 结果 ， 可 以 得 到 如 下 观察 结果 : 

1. 均 方 误差 意义 上 最 精确 的 模拟 是 由 DEKF 算法 训练 的 RMLP 得 到 ; 对 5980 个 样本 计 
算 的 预测 误差 的 方差 是 1.1839 x107, 

2. 对 于 集中 TLFN， 均 方 误差 意义 上 的 最 精确 的 模拟 是 通过 GEKF 训练 得 到 的 。 对 于 
GEKF 训练 ， 预测 误差 的 方差 是 1.3351 x104, TXT GEKF 训练 ， 预 测 误差 的 方差 是 
1.5871 x 10“。 两 个 都 是 用 5980 个 样本 计算 的 。 
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图 15-14 计算 机 建 模 试验 的 实际 波形 ( 实 线 ) 和 预测 波形 (虚线 ) 僵 加 图 ， 
利用 DEKF 算法 训练 的 RMLP 所 计算 预测 波形 
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0.06 0.06 
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~ 0 < 0 
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0 50 100 150 200 250 300 0 50 100 150 200 250 300 
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` 0 
W _0.02 
Boos 
-0.06 
-0.08 
-0.1 


50 100 150 200 250 300 
RTJ, 72 
c) 
图 15-15 三 种 不 同 模拟 的 预测 误差 波形 
a) 由 DEKF 训练 的 RMLP， 误 差 方 差 1.1839 x 10-4 b) 由 GEKF 训练 的 TLFN, 1232773 = 1.3351 x 10-4 
c) 由 DEKF 训练 的 聚焦 TLFN, RHF = 1.5871 x 1074 
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3. 对 于 利用 标准 反 向 传播 算法 训练 的 集中 TLFN, 第 13.5 节 报 告 的 预测 误差 的 方差 是 


1.2x 10°. X HEH CEKF 算法 和 DEKF 算法 得 到 的 结果 要 差 一 个 数量 级 。 
相对 反 向 传播 而 言 扩展 Kalman 滤波 器 的 优异 的 学 习性 能 归 因 于 它 的 信息 保持 性 。 


15.12 递归 网 络 的 消失 梯度 


递归 网 络 的 实际 应 用 需要 引起 注意 的 一 个 问题 是 消失 梯度 (vanishing gradient), ， 它 和 依靠 
很 久 以 前 的 输入 数据 用 来 训练 网 络 使 之 在 当前 时 刻 产 生 一 个 期 望 响 应 有 关 ( Hochreiter, 1991; 
Bengio et al. ,1994 ) 。 关 键 是 由 于 组 合 的 非 线 性 性 ， 一 个 时 间 上 隔 得 远 的 输入 的 一 个 微小 变 
化 对 网 络 的 训练 几乎 不 会 产生 影响 。 即 使 时 间 上 隔 得 远 的 输入 的 大 的 变化 产生 影响 ， 但 影响 
不 能 被 梯度 检测 到 ， 这 时 间 题 同样 可 能 出 现 。 消 失 梯 度 问 题 在 一 些 特定 情况 下 使 得 基于 梯度 


的 训练 算法 中 长 期 依赖 的 学 习 即 使 不 是 完全 不 可 能 也 是 变 得 很 困难 。 


在 Bengio et al.，(1994) 中 ， 对 许多 实际 应 用 曾经 讨论 过 ， 需 要 递归 网 络 能 够 存储 任意 
时 间 长 度 的 状态 信息 ， 而 在 有 噪声 的 情况 下 是 否 有 必要 这 样 做 。 在 递归 网 络 状 态 变 量 中 长 期 
存储 的 有 限 位 的 信息 称 为 信息 锁 存 (information latching)。 信 息 锁 存 必 须 很 和 鲁 棒 ， 不 能 被 与 当 


前 学 习 任 务 无 关 的 事件 删除 。 用 特殊 术语 ， 我 们 可 以 陈述 如 下 (Bengio et al. ,1994 ) : 


如 果 网 络 状态 包含 在 一 个 双 曲 
吸引 子 的 压缩 吸引 集中 ， 则 递归 网 
络 的 鲁 棱 性 信息 锁 存 就 可 以 实现 。 


双 曲 吸引 子 的 概念 在 14 章 讨 
论 。 一 个 双 曲 吸引 子 的 压缩 集 是 在 
吸引 盆 的 一 个 点 集合 ， 在 这 些 点 处 
Jacobi 矩阵 的 所 有 特征 值 的 绝对 值 小 
于 1。 这 就 意味 着 如 果 递 归 网 络 的 状 
态 x(n) 在 一 个 双 曲 吸引 盆 ， 而 不 在 
压缩 吸引 集中 ， 那么 在 x(n ) 周 围 的 
一 个 不 确定 球 (ball of uncertainty ) 的 
大 小 会 随时 间 而 指数 增长 ， 如 图 15- 
16a 所 示 。 所 以 ， 对 于 递归 网 络 输入 
的 小 扰动 (噪声 ) 能 够 将 轨道 推 向 另 
一 个 (可 能 是 错 的 ) 吸 引 盆 。 但 是 如 
果 状 态 x(n) 继 续 保 持 在 双 曲 吸引 子 
的 压缩 吸引 集中 ， 这 时 在 输入 x(n) 
能 够 找到 一 个 有 界 范围 使 得 x(n) FF 
留 在 吸引 子 的 一 定 距 离 之 内 ， 如 图 
15- 16 所 示 。 


长 期 依赖 


为 了 理解 梯度 基础 上 学 习 的 鲁 棒 性 信息 锁 存 的 作用 ， 我 们 注意 在 时 刻 ”应 用 到 递归 网 





a P: 双 曲 吸引 子 


B: 了 的 吸引 盆 
a) Y: 了 的 压缩 吸引 集 





状态 x(n) 的 域 
b) 


图 15-16 
a) 状 态 (ERIA 8 内 但 不 在 压缩 吸引 集 
Y 内 b) 状 态 x(n) 在 压缩 吸引 集 7 内 
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络 的 权 值 向 量 w 由 
DE oal 
~ 1 aw 
调整 ， 这 里 了 是 学 习 率 参数 。3@。/aw ER ME, WF w 的 梯度 。 代 价 函数 名 ,通常 由 
E otal = 1 5 | d,(n) 一 y,(n) || ? 
定义 ， 其 中 d (nm) 是 期 望 响应 ，yi (n) 是 网 络 对 第 i 个 模式 在 时 间 n 时 的 实际 响应 。 因 此 ， 
可 以 写成 的 形式 : 


Aw(n) = 


Aw(n) = 9 D(L) (a(n) - y(n) 
‘ (15.81) 





9y,(n) Ix (n 
-D(F S) a -y 
其 中 在 第 二 行使 用 了 微 积 分 的 链 式 法 则 ; 状态 向 量 x,(n) 属 于 训练 样本 的 第 i 个 模式 。 在 应 
用 诸如 通过 时 间 的 反 向 传播 算法 的 时 候 ， 代 价 函 数 的 偏 微分 根据 在 不 同时 间 标 号 的 独立 权 值 
进行 计算 。 可 以 扩展 方程 (15.81) 的 结果 如 下 : 


SE am 
第 二 次 应 用 微 积分 的 链 规则 得 到 l 
aw = 1 5 (2 D ee AR) (din) ~ ¥iC)) (15.82) 
根据 状态 方程 (15.2) 我 们 认识 到 有 
x(n) = @(x,(k),u(n)) l<ken 


因此 我 们 可 以 把 3x; (= )/axi (有 解释 为 非 线性 函数 pC, ) 扩 展 到 nn -上 个 时 间 步 的 Jacobi 矩 
阵 ， 即 








oxi(n) op(xi(k),u(n)) 
oax(k) ~ ox;(k) 
在 Bengio et el. ,(1994) 中 ,证 明 如 果 输 入 u(n) 使 得 递归 网 络 在 时 间 n =0 之 后 鲁 棒 地 锁 存在 
KARSTA, FÆ Jacobi 矩阵 J.(n,k) 关 于 上 是 指数 递减 的 ， 因 此 有 
det(J,(n,4)) — 0 35 k— © 对 所 有 (15.84) 
式 (15.84) 的 含义 是 网 络 的 权 值 向 量 w 的 一 个 微小 变化 在 最 近 的 过 去 ( 即 接近 当前 时 间 n 的 
的 值 ) 有 作用 。 在 时 间 n 时 可 能 存在 权 值 向 量 w 的 调整 Aw 使 得 x(m ) 移 动 到 一 个 更 好 的 状 吸 
盆 ， 但 代价 函数 中 ,对 w 的 梯度 并 不 携带 那个 信息 。 
作为 结论 ， 假 设 递归 网 络 的 双 曲 吸引 子 存储 状态 信息 时 使 用 基于 梯度 的 学 习 ， 我 们 可 以 
发 现下 列 两 种 情况 之 一 : 
。 在 输入 信号 具有 噪声 时 网 络 不 是 鲁 棒 的 ， 或 者 
。 网 络 不 能 发 现 长 期 性 依赖 (即时 间 间 隔 比较 长 的 输入 和 目标 输出 之 间 的 关系 ) 
减轻 递归 网 络 中 由 于 消失 梯度 所 产生 的 困难 包括 如 下 可 能 的 过 程 (3: 
。 在 训练 过 程 中 ， 利 用 基于 短 符号 串 优先 的 原则 表示 网 络 以 增加 输入 -输出 依赖 的 时 
序 扩展 ， 参 考 15.6 节 中 的 启发 方法 。 





= J,(n,n—- k) (15.83) 
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。 用 扩展 的 Kalman 滤波 器 或 它 的 解 看 形式 ， 比 基于 梯度 的 算法 更 高 效 地 使 用 可 用 的 信 
息 ; 扩展 的 Kalman 滤波 器 在 15.10 节 讨论 。 

。 使 用 诸如 拟 Newton 最 优化 和 模拟 退火 (Bengio et al. ,1994 ) 等 更 精致 的 优化 算法 ; 二 
阶 优化 方法 和 模拟 退火 分 别 在 第 4 章 和 第 11 章 讨论 。 


15.13 系统 辨识 


系统 辨识 (system identification) 是 对 一 个 过 程 或 -- 族 未 知 参 数 建 模 的 实验 方法 岂 。 它 涉及 
如 下 步骤 : 实验 计划 ， 选 择 模 型 结构 ， 参 数 估计 和 模型 验证 。 和 实际 中 所 做 的 一 样 ， 系 统 辨 
识 的 过 程 是 迭代 性 的 ， 我 们 可 能 不 得 不 在 这 些 步骤 闻 来 回 重 复 直 到 建立 满意 的 模型 为 止 。 

假设 已 有 一 个 未 知 的 非 线 性 动态 设备 ， 需 要 为 它 建 立 合适 的 参数 化 的 辨识 模型 。 我 们 选 
择 在 状态 空间 模型 或 输入 -输出 模型 基础 上 建立 系统 辨识 过 程 。 决 定 由 哪 一 个 去 表示 ， 取 决 
于 输入 的 先 验 信息 和 系统 的 可 观测 量 。 下 面 ， 对 两 种 表示 都 进行 讨论 。 


使 用 状态 空间 模型 的 系统 辨识 


假设 给 定 的 设备 (plant) 由 状态 空间 模型 描述 : 

x(n +1) = f(x(n),u(n)) (15.85) 

y(n) = h(x(n)) (15.86) 

FP (+, +) Al h(' ) 为 向 量 值 的 非 线性 函数 ， 两 者 都 假设 为 未 知 的 ; 式 (15.86) 是 式 

(15.11) 的 一 般 形式 。 用 两 个 神经 网 络 去 辨识 系统 ， 一 个 处 理 过 程 方程 (15.85) ， 另 一 个 处 理 
度量 方程 (15.86) ， 如 图 15-17 所 示 。 

我 们 认识 到 状态 x(n) 是 x(n+1) 的 单 步 延迟 形式 。 令 名 (n +1) 表示 由 第 一 个 神经 网 络 产 
生 的 x(n+1) 的 估计 ， 这 个 神经 网 络 在 图 15- 17a 中 标记 为 I。 这 个 网 络 对 包括 外 部 输入 u(n) 
和 状态 x(n) 的 并 置 输入 进行 操作 以 产生 (n+ 1) 。 从 实际 状态 x(n + 1) 中 减 去 估计 值 人 (nm+ 
1) 得 到 误差 向 量 

e(n4+1) = x(n+1)- (n+1) 
其 中 x(n +1) 起 到 期 望 响应 的 作用 。 在 这 个 方法 中 假设 状态 x(n) 实 际 上 是 可 用 的 。 误 差 向 
E e(n +1) 用 作 调 整 神经 网 络 I 的 突 触 权 值 ， 如 图 15-17a 所 示 ， 所 以 在 统计 意义 下 最 小 化 
以 误差 向 量 e(n + 1) 为 基础 的 代价 函数 。 

图 15- 17b 中 标记 为 I 的 第 二 个 神经 网 络 ， 通 过 对 未 知 模型 的 实际 状态 x(n ) 的 操作 产生 

实际 输出 y(n) 的 估计 值 nn)。 从 y(n) 中 减 去 估计 值 $(n) 得 到 第 二 误差 向 量 

e(n) = y(n) - $(n) 
其 中 y(z) 起 到 期 望 响 应 的 作用 。 误 差 向 量 e(o AFI RRR, EEA 
意义 下 最 小 化 误差 向 量 er(n) 的 欧 几 里 德 范 数 。 

图 15-17 所 示 的 两 个 神经 网 络 在 同步 模式 下 运行 ， 提 供 系 统 辨 识 问 题 的 状态 空间 解 
(Narendra and Parthasarathy, 1990 )。 考 虑 到 未 知 系统 (而 不 是 辨识 模型 ) 的 实际 状态 被 反馈 到 辩 
识 模型 这 个 事实 ， 该 模型 被 称 作 串 并 行 辨识 模型 (series-parallel identification model), ， 如 图 15- 
17a 所 示 。 根 据 15.9 节 最 后 的 讨论 ， 这 种 形式 的 训练 方法 是 教师 强制 的 一 个 例子 。 

图 15-17a 的 串 并 行 辨识 模型 应 该 与 并 行 辨识 模型 作 比 较 , 在 后 一 模型 中 作用 在 网 络 I 
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BY x(n) 被 六 mn) 代替 ; 其 中 名 (n) 是 通过 传递 一 个 单位 延 时 z A BS TBC + 1) 
得 到 的 。 这 个 训练 替代 模型 的 实际 好 处 是 神经 网 络 模型 和 未 知 系统 运行 方式 完全 相同 ， 也 就 
是 说 ， 当 训练 结束 后 模型 将 被 使 用 。 因 此 通过 并 行 训练 方式 得 到 的 模型 比 通过 串 并 行 方式 训 
练 得 到 的 模型 有 更 好 的 自治 行为 。 但 并 行 训练 方 式 的 不 利之 处 在 于 它 的 时 间 比 串 并 行 方式 时 
间 更 长 ， 参 考 15.9 节 所 讨论 的 教师 强制 。 特 别 地 ， 在 当前 情况 下 用 于 并 行 训练 方式 的 状态 
估计 值 &(m) 通 常 不 如 用 于 串 并 行 训 练 方式 的 实际 状态 x(n) 准 确 。 

输入 ”未 知 系统 


u(n) 人 = 





状态 
x(n) 





b) 


图 15-17 系统 辨识 问题 的 状态 空间 解 
输入 -输出 模型 


假设 下 一 个 未 知 设备 (plant) 只 能 通过 它 的 输出 访问 。 为 简化 表达 ， 假 设 系统 为 单 输入 单 
输出 的 。y(n) 表 示 在 不 同 离散 时 刻 n 时 关于 输入 wu(n) 的 输出 。 使 用 NARX 模型 ， 辨 识 模型 
有 如 下 形式 ; 
g(n+1) = 7(z) x(n -—- 9 + 1),uln),,uln - ¢ + 1)) 
[78] 其 中 9 是 未 知 系统 的 阶 。 在 时 间 n +1, 输入 的 q 个 过 去 值 和 输出 的 9 个 过 去 值 都 可 用 。 模 
型 输出 了 (n +1) 表示 实际 输出 y(n + 1) 的 估计 值 。 从 y(n + 1) 中 减 掉 估 计 9?(n + 1) 得 到 误差 


信号 
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el(n+l1l)= y(n+1)- ?n+1) 
其 中 y(n +1) 起 着 期 望 响 应 的 作用 。 利 用 误差 e(n + 1) 调 整 神 经 网 络 的 突 触 权 值 使 得 在 统计 
意义 下 最 小 化 误差 。 因 为 系统 (而 不 是 辨识 模型 ) 的 实际 输出 被 反馈 回 模型 的 输入 ， 如 图 15- 
18 的 辨识 模型 是 一 个 串 并 行 形式 ( 即 教师 强制 形式 )。 


输入 实际 输出 
u(n +1) y(n +1) 





图 15-18 系统 辨识 问题 的 NARX 解 


15.14 模型 参考 自 适 应 控制 


递归 网 络 的 另 一 应 用 是 设计 反馈 控制 系统 ， 在 这 里 设备 (plant) 状 态 由 强加 的 控制 非 线性 
地 耦合 (Puskorius and Feldkamp, 1994; Puskorius et al. ,1996 ) 。 系 统 的 设计 由 其 他 因素 例如 无 法 
测量 的 随机 扰动 、 可 能 系统 的 道 不 惟一 以 及 出 现 不 可 观察 的 系统 状态 而 进一步 复杂 化 。 
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适合 使 用 神经 网 络 的 控制 策略 是 模型 参考 自 适 应 控制 (model reference adaptive control, 
MRAC)!551 ， 这 里 蕴含 的 假设 是 设计 者 对 所 考虑 的 系统 足够 熟悉 (Narendra and Annaswany, 
1989 )。 图 15- 19 显示 这 样 一 个 系统 的 框图 ， 其 中 自 适 应 性 用 来 解释 系统 的 动力 学 性 质 是 未 
知 的 这 个 事实 。 控 制 器 和 系统 形成 一 个 封闭 的 环 状 反馈 系统 ， 因 此 组 成 一 个 外 部 回归 
(externally recurrent) P28, 设备 从 控制 器 接受 输入 (nn) 以 及 外 部 的 一 个 扰动 ts (n)。 相应 
地 ,设备 及 时 地 演化 为 强制 输入 和 系统 自身 状态 x, (n) 的 函数 。 设 备 输出 y,(n +1) 是 x,(n) 
的 函数 。 设 备 输出 也 可 能 被 度量 噪声 所 损坏 。 





图 15-19 使 用 直接 控制 的 模型 参考 自 适应 控制 


控制 器 接受 两 个 输入 : 外 部 指定 的 参考 信号 r(n)， 以 及 表示 设备 输出 y, (n+ 1) 单 步 延 

述 形式 的 y,(n)。 控 制 器 产生 控制 信号 向 量 ， 定 义 为 

u.(n) = fi(x Cn),y,(n),r(n),w) 
其 中 x. (nn) 为 控制 器 自身 的 状态 ，w 是 可 调 的 参数 向 量 。 向 量 值 函数 £(:,:,:,: ) 定 义 控制 
器 的 输入 - 输出 行为 。 

设备 期 望 响应 d(n + 1) 是 由 稳定 参考 模型 (reference model) 的 输出 提供 的 ， 它 是 响应 参考 
r(n) 而 产生 的 。 期 望 响应 d(n + 1) 因 此 是 参考 信号 r(n) 和 参考 模型 自身 状态 x,(n) 的 函数 ， 
表示 为 

d(n+1) = £,(x,(n),r(n)) 
向 量 值 函数 (+, ) 定 义 参考 模型 的 输入 - 输出 行为 。 
输出 误差 ( 即 设备 和 模型 参考 输出 之 间 的 误差 ) 记 为 
e.(n+1) = d(n+1)-y,(n +1) 
设计 目标 是 调整 控制 器 的 参数 向 量 w， 使 得 输出 误差 e.(m) 的 欧 几 里 德 范 数 是 对 时 间 n 的 最 
小 化 。 

图 15-19 的 MRAC 系统 的 控制 方法 被 称 为 直接 的 ， 这 是 指 不 用 辨识 设备 参数 ， 而 是 直接 
调整 控制 器 的 参数 提高 系统 性 能 。 不 幸 的 是 ， 当 前 还 没有 在 输出 误差 基础 上 调整 控制 器 参数 
的 精确 方法 (Narendra and Parthasarathy, 1990 )。 这 是 因为 未 知 设备 处 于 控制 器 和 输出 误差 之 
间 。 为 克服 这 个 困难 ， 我 们 可 以 用 间接 控制 (indirect control), ， 如 图 15-20 所 示 。 后 面 这 种 方 
法 ， 使 用 两 步 过 程 训 练 控制 器 : 
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1. 设备 P 的 模型 记 为 P， 它 是 根据 系统 输出 对 设备 输入 、 以 前 的 设备 输出 和 以 前 的 设备 
内 部 状态 的 微分 关系 的 估计 而 得 到 的 。 在 前 一 节 描述 的 过 程 用 于 训练 神经 网 络 使 之 





辨识 设备 ， 这 样 得 到 模型 了 P 称 为 辨识 模型 。 ar 
2. (8 FBR B BERRE L115 BIAS AARTE BE HY A Be oy AY AS RAE 
it. 


在 间接 控制 里 ， 外 部 递归 网 络 包括 控制 器 和 通过 辨识 模型 了 产生 的 设备 输入 /输出 表示 。 

在 图 15-20 的 一 般 结构 中 ， 递 归 网 络 对 于 控制 器 设计 的 应 用 有 一 系列 广为人知 例子 ， 如 
小 车 - 单 立 摆 (cart-pole) 问 题 ， 生 物 反 应 器 标准 测试 (bioreactor benchmark) 问 题 以 及 自动 控制 
子 系统 ， 即 发 动机 慢 速 (engine idle-speed) 控 制 (Puskorius and Feldkamp, 1994, Puskorius et al., 
1996 )。 在 这 些 研究 里 的 递归 网 络 是 和 15.2 节 的 讨论 相似 的 递归 多 层 感知 器 。 网 络 的 训练 使 
用 15.11 节 的 DEKF 算 法。 但 注意 ， 对 于 发 动机 慢 速 控制 因为 强加 的 控制 (在 适当 选择 的 范 
围 内 ) 单 调 地 影响 发 动机 速度 ， 选 择 了 一 个 线性 动态 系统 作为 辨识 模型 。 

e(n) 


确认 模型 ,P E 










PD 
ee 






e(n +1) 


r(n) 
un Y(n + 1) 





E e(n +1) 


图 15-20 通过 辨识 模型 利用 间接 控制 的 模型 参考 自 适应 控制 


15.15 小 结 和 讨论 


本 章 讨论 涉及 应 用 全 局 反馈 到 静态 (无 记忆 ) 多 层 感 知 器 的 递归 网 络 。 反 馈 的 应 用 使 得 神 
经 网 络 获得 状态 表示 ， 使 得 它们 成 为 信号 处 理 和 控制 中 各 种 应 用 的 合适 工具 。 属 于 有 全 局 反 
馈 的 递归 网 络 类 型 的 四 个 主要 网 络 结构 如 下 : 

。 使 用 从 输出 层 反馈 到 输入 层 的 具有 外 部 输入 的 非 线性 自 回归 (NARX) 网 络 。 

。 具有 从 隐藏 层 到 输入 层 反馈 的 完全 连接 递归 网 络 。 

。 有 多 于 一 个 隐藏 层 的 递归 多 层 感知 器 ， 其 中 每 个 计算 层 输出 反馈 到 它 自 己 的 输入 。 
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。 使 用 二 阶 神经 元 的 二 阶 递归 网 络 。 

在 所 有 这 些 递归 网 络 中 ， 反 馈 通过 抽 头 延迟 线 记忆 。 

前 三 个 递归 网 络 可 以 使 用 状态 空间 框架 研究 其 动态 行为 。 这 个 根植 于 现代 控制 论 的 方法 
提供 一 个 研究 非 线 性 动态 递归 网 络 的 一 个 有 力 的 工具 。 

我 们 描述 三 种 基本 的 算法 来 训练 递归 网 络 的 算法 : 通过 时 间 的 反 向 传播 {BPTT)， 实 时 
递归 学 习 (RTRL) MI FEY Kalman 滤波 器 (DEKF)。BPIT 和 RTRL 算法 是 建立 在 梯度 基 
础 上 的 ， 而 DEKF 算法 对 高 阶 信息 的 使 用 更 有 效 。 因 此 它 可 以 比 BPIT 和 RTRL 收敛 更 快 ， 
但 也 增加 相应 的 计算 复杂 性 。 实 际 上 DEKF 算法 可 以 看 做 是 一 种 可 能 使 用 的 技术 ， 它 使 得 解 
决 困难 的 信号 处 理 和 控制 问题 成 为 可 能 。 

理论 上 ， 有 全 局 反馈 (例如 使 用 DEKF 算法 训练 的 递归 多 层 感 知 器 ) 的 递归 网 络 可 以 学 习 
非 定常 (nonstationary) 环 境 下 的 固有 动力 学 系统 ， 这 是 通过 将 从 训练 样本 中 获得 的 知识 存储 在 
一 个 固定 的 权 值 集合 中 实现 的 。 更 重要 的 是 ， 假 设 满足 下 面 两 个 条 件 网 络 可 以 追踪 环境 的 统 
计 变 化 : 

。 递归 网 络 不 发 生 欠 适应 (underfitting) 或 过 适应 (overfitting)。 

。 训练 样本 表示 环境 的 非 定 常 行为 。 

综观 全 章 ， 我 们 强调 利用 递归 网 络 进行 时 序 处 理 。 递 归 网 络 也 可 以 用 于 处 理 一 系列 有 序 
的 数据 ， 这 些 数据 并 没有 直接 的 时 序 解 释 ( 如 表示 为 树 的 化 学 结构 )。 在 Sperduti and Starita 
《1997) 中 ， 递 归 网 络 可 以 表示 和 分 类 结构 化 模式 ， 这 些 模式 可 以 表示 成 有 向 图 、 带 标号 图 和 
无 环 图 的 形式 。 这 种 方法 背后 的 主导 思想 是 在 这 里 被 称 作 “广义 递归 神经 元 "， 这 是 指 一 个 递 
归 神 经 元 ( 即 具有 局 部 反馈 的 神经 元 ) 结 构 上 的 推广 。 通 过 使 用 这 样 一 个 模型 ， 监 督学 习 算 法 
诸如 通过 时 间 的 反 向 传播 和 实时 递归 学 习 都 可 以 被 扩展 以 处 理 结 构 化 模式 。 


注释 和 参考 文献 


[1] 关于 其 他 递归 网 络 结构 ， 见 Jordan (1986), Back and Tsoi (1991)，Frasconi et al., 
(1992)， 以 及 Robinson and Fallside( 1991)。 

[2] NARX 模型 包括 一 类 重要 的 非 线 性 离散 时 间 系 统 ( Leontaritis and Bilings,1985)。 涉 及 到 
神经 网 络 这 方面 的 讨论 可 以 参考 Chen et al., (1990), Narendra and Parthasarathy( 1990) , 
Lin et al., (1996) 和 Sieglemann et al., (1997). 
已 经 证 实 NARX 模型 十 分 适合 对 非 线性 系统 进行 建 模 ， 如 热 交 换 器 ( Chen el al. , 1990), 
污水 处 理 设备 (Su and MecAvoy,1991; Su et al. ,1992)， 用 于 石油 提炼 的 催化 更 新 系统 (Su 
et al. ,1992) ， 在 生物 系统 中 的 多 肢 移 动 的 非 线性 振荡 (Venkataraman,1994) 和 语法 推理 
(Giles and Home, 1994) 。 
NARX 模型 也 指 非 线性 自 回归 滑动 平均 (NARMA) 模 型 ， 其 中 “滑动 平均 ”是 对 于 输入 而 

[3] 图 15-4 的 递归 多 层 感知 器 是 Jordan(1986) 描 述 的 递归 网 络 的 推广 。 

[4] Onlin and Giles(1996) 指 出 ， 用 二 阶 递归 网 络 ， 任 何 有 限 状 态 自动 机 可 以 映射 到 这 样 一 
种 网 络 ， 且 可 以 保证 有 限 长 度 的 时 序 序 列 的 正确 分 类 。 

[5] 可 控 性 和 可 观察 性 的 严格 处 理 可 以 参考 Zadeh and Desoer(1963) Kailath(1980), Sontag 
(1990), Lewis and Syrmos(1995)。 
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[6] 


[7] 


[9] 


[10] 


有 关 神 经 网 络 和 自动 机 (实际 上 是 串 行 机 器 - 自动 机 的 实现 ) 方 面 的 最 早 工 作 ， 即 第 一 
篇 关于 有 限 状 态 自动 机 、 人 工 智 能 和 递归 神经 网 络 方面 的 论文 ， 是 McCulloch and Pitts 
(1943) 的 著名 的 论文 。 递 归 网 络 ( 具 有 瞬时 反馈 ) 是 这 篇 论文 的 第 二 部 分 ， 这 在 Kleene 
(1956) 被 解释 为 一 个 有 限 状态 自动 机 。Kleene 的 论文 出 现在 由 Shannon 和 McCarthy 编辑 
的 《自动 机 研究 》(Automata Studies) 一 书 中 (这 本 惊 世 之 作 的 作者 还 包括 Moore, Minsky, 
von Neumann, Uttley, McCarthy 和 Shannon A). AHR, Kleene 的 论文 被 作为 有 限 状 
态 机 器 方面 的 第 一 篇 文章 引用 (Perin，1990)。Minsky(1967) 在 他 的 《计算 : 有 限 和 无 限 
机 器 》( Computation: Finite and Infinite Machines) 一 书 中 讨论 自动 机 和 神经 网 络 。 
所 有 关于 自动 机 和 神经 网 络 方面 的 早期 工作 主要 考虑 怎样 将 二 者 结合 在 一 起 ， 就 是 说 ， 
如 何 建 造 和 设计 自动 机 到 神经 网 络 中 去 。 因 为 大 多 数 自 动机 ( 当 被 实现 为 串 行 机 器 的 时 
候 ) 需 要 反馈 ， 神 经 网 络 必 须 为 递归 的 。 注 意 早期 的 工作 (除了 Minsky 的 ) 并 没有 明确 
地 区 分 自动 机 (有 向 图 ， 标 记 图 ， 无 圈 图 ) 和 串 行 机 器 (逻辑 延 时 和 反馈 延 时 )， 大 多 数 
情况 下 仅 考 虑 有 限 状 态 自动 机 。 对 于 提高 自动 机 的 层次 到 下 推 自 动机 和 图 灵机 没有 什 
人 么 兴趣 (除了 Minsky 之 外 )。 

在 神经 网 络 的 黑暗 时 代 过 去 之 后 ， 关 于 自动 机 和 神经 网 络 方面 的 研究 在 20 世纪 80 年 
代 又 开始 了 。 这 个 工作 可 以 大 概 分 为 下 面 三 个 大 的 领域 : (1) 学 习 自 动机 ，(2) 自动 机 
关于 知识 的 合成 、 抽 取 和 提炼 ，(3) 表 示 。 首 先 提 到 自动 机 和 神经 网 络 的 是 Jordan 
(1986)。 

使 用 McCulloch - Pitts 神经 元 的 单 层 递归 网 络 不 能 模拟 任何 有 限 状 态 的 机 (Coudreau et 
引 .，1994)， 但 Elman 的 简单 递归 网 络 可 以 作 这 样 的 模拟 (Kremer，1995)。 只 有 局 部 反 
馈 的 递归 网 络 不 能 表示 所 有 有 限 状态 机 (Jrasconi and Gori,1996; Giles et al. , 1995; Kremer, 
1996) 。 

通过 时 间 的 反 向 传播 的 思想 ， 是 对 于 每 一 个 递归 网 络 都 可 能 建立 一 个 前 馈 网 络 ， 使 之 
在 一 个 特定 的 时 间 间 隔 内 具有 和 它 相 同 的 行为 (Minsky and Papert, 1969)。 通 过 时 间 的 反 
向 传播 首先 由 Werbos(1974) 的 博士 论文 讨论 ; 也 可 以 参考 Werbos(1990)。 这 个 算法 由 
Rumelhart et al., (1986b) 独立 地 重新 发 现 。 通 过 时 间 的 反 向 传播 算法 的 一 个 变 体 由 
Williams and Peng (1990) 所 讨论 。 对 于 算法 的 综述 和 相关 的 问题 ， 可 以 参考 Williams and 
Zipser(1995S) 。 

实时 递归 学 习 算法 在 神经 元 网 络 文献 中 的 第 一 次 描述 是 Williams and Zipser(1989)。 其 
来 源 可 以 追溯 到 McBride and Narendra(1965) 用 于 调节 任意 动态 系统 参数 的 系统 辨识 的 论 
文 。 

Williams 和 Zipser 给 出 的 推导 是 关于 完全 递归 的 单 层 神经 网 络 。 它 已 扩展 为 更 一 般 的 结 
构 ; 例如 ， 参 考 Kechriotis et al., (1994); Puskorius and Feldkamp( 1994)。 

Kalman 滤波 器 理论 来 源 于 Rudolf E.Kalman(1960) 的 经 典 论文 。 它 已 成 为 信号 处 理 和 控 
制 的 核心 部 分 ， 并 且 在 很 多 领域 有 很 广泛 的 应 用 。 对 于 标准 Kalman 滤波 器 、 它 的 变 体 
和 它 的 用 于 处 理 非 线性 动态 系统 的 扩展 形式 以 及 它们 的 详细 细节 ， 可 以 参考 Grewal and 
Andrews (1993) 和 Haykin(1996)。 由 Grewal 和 Andrews 写 的 书 全 部 讨论 的 是 Kalman 滤波 
器 的 理论 和 实践 。 由 Haykin 写 的 书 ， 从 自 适应 的 滤波 方面 讨论 Kalman 滤波 器 的 理论 。 
另外 两 本 这 个 方面 的 重要 的 书 是 Jazwinski(1970) 和 Maybeck(1979, 1982)。 
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[11] 平方 根 Kalman 滤波 器 细节 处 理 和 实现 它 的 有 效 方法 ， 见 Haykin( 1996) . 

[12] Singhal and Wu(1989) 也 许 是 第 一 个 展示 用 扩展 的 Kalman 滤波 器 提高 监督 神经 元 网 络 的 
映射 性 能 。 不 幸 的 是 ， 那 里 讨论 的 训练 算法 受 限于 它 的 计算 的 复杂 性 。 为 克服 这 个 困 
XE, Kollias and Anastassiou(1989) Shah and Palmieri(1990) 尝 试 通过 将 全 局 问题 分 为 一 系 
列子 问题 ， 每 个 子 问题 表示 一 个 单一 的 神经 元 ， 以 简化 扩展 的 Kalman 滤波 器 的 应 用 。 
但 是 作为 一 个 辨识 问题 的 每 一 个 神经 元 的 处 理 并 不 是 严格 地 遵守 Kalman 滤波 器 理论 。 
还 有 ， 这 样 处 理会 导致 训练 过 程 中 的 不 稳定 行为 ， 并 且 可 能 得 到 比 别 的 方法 得 到 的 结 
果 还 差 的 解 (Puskorius and Feldkamp, 1991), 

[13] 消失 梯度 问题 的 其 他 处 理 方法 包括 绕 过 一 些 递 归 网 络 的 非 线性 特性 以 便 改进 长 期 学 习 
的 依赖 性 。 这 种 处 理 的 例子 包括 : 

。 在 网 络 体系 结 构 中 使 用 长 期 延迟 (El Hihi and Bengio,1996; Lin et al. ,1996; Giles et al., 
1997) 

。 与 不 同时 间 尺 度 联系 的 多 级 网 络 层次 化 结构 (El Hihi and Bengio, 1996) 

。 用 门 单元 避 开 某 些 非 线性 性 (Hochreiter and Schmidhuber, 1997) 

[14] 系统 辨识 有 许多 文献 。 对 于 这 个 主题 讨论 的 书籍 ， 可 以 参考 Ljung(1987), Ljung and 
Glad (1994)。 对 于 这 个 问题 特别 是 将 重点 集中 在 神经 网 络 上 的 综述 可 以 参考 Sjoberg et 
al., (1995) 和 Narendra( 1995)。 使 用 神经 网 络 对 于 系统 辨识 进行 详细 的 研究 首先 是 
Narendra and Parthasarathy( 1990)。 

[15] 对 模型 参考 自 适应 控制 的 详细 讨论 ， 见 Landau(1979) 的 书 。 

习题 

状态 空间 模型 
15.1 写 出 图 15-3 的 Elman 简单 递归 网 络 状态 空间 模型 的 计算 公式 。 

15.2 证 实 图 15-4 的 递归 多 层 感 知 器 可 以 用 状态 空间 模型 
x(n +1) = f(x(n),u(n)) 
y(n) = g(x(n),u(n)) 

表示 ， 其 中 um) 表示 输入 ，y(z) 表 示 输 出 ，x(n) 表 示 状 态 ，f(. ，) 和 g(-，) 表 示 向 量 值 非 

线性 函数 。 

15.3 一 个 动态 系统 是 否 可 能 是 可 控 的 但 不 可 观察 的 ， 而 且 反 之 亦 然 ?证 实 你 的 答案 。 

15.4 参考 15.3 节 的 局 部 可 控 性 问题 ， 证 实 

(a) 状 态 x(n + g) 是 它 过 去 值 x(n) 和 式 (15.24) 的 输入 向 量 u (m) 的 骸 套 非 线性 函数 。 

(b)x(n + 9) 对 us(n) 的 Jacobi 和 矩阵 在 原点 求 值 等 于 式 (15.23) 可 控 性 矩阵 M.o 

15.5 参照 15.3 节 的 局 部 可 观察 性 问题 ， 证 明定 义 在 式 (15.30) 中 的 观察 向 量 y, (nn) 对 
状态 x(n) HY Jacobi 矩阵 在 原点 的 求 值 等 于 式 (15.28) 的 可 观察 矩阵 M, 。 

15.6 非 线 性 动态 系统 的 过 程 方 程 由 

x(n +1) = f(x(n),u(n)) 

描述 ， 其 中 u(n) 是 在 时 刻 n 的 输入 向 量 ，x(n) 是 对 应 的 系统 状态 。 输 入 u(n) 过 程 方 程 中 
以 非 加 性 的 方式 出 现 。 在 本 题 中 ， 我 们 希望 重新 写 过 程 方程 ， 使 输入 u(n) 以 加 性 的 方式 出 
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x(n+1) = fay (x (n)) + u(n) 
给 出 向 量 xX(n) 和 ww(n) 以 及 函数 f,(' AVE MAK 
15.7 图 15-22 提出 在 神经 元 级 上 的 使 用 局 部 反馈 的 递归 网 络 模型 的 两 个 例子 。 在 图 中 
的 a 部 分 和 b 部 分 显示 的 体系 结构 分 别称 为 局 部 激活 反馈 和 局 部 输出 反馈 (Tsoi and Back, 
1994)。 对 这 两 个 递归 网 络 的 体系 结构 ， 写 出 状态 空间 模型 公式 。 评 价 它们 的 可 控 性 和 可 观 
察 性 。 


输入 


u(n) 输出 


y(n) 


u(r) 输出 


y(n) 





图 15-21 
a) 局 部 激活 反馈 体系 结构 b) 局 部 输出 反馈 体系 结构 


有 外 部 输入 的 非 线性 自 回归 (NARX) 模 型 

15.8 参考 15.4 节 的 NARX 模型 ， 证 明 式 (15.16) 和 (15.17) 的 使 用 导致 NARX 模型 的 输 
出 y(n + 9) 关 于 状态 x(n) 和 输入 向 量 u,(n) 的 表达 如 下 : 

y(n +q) = ®(x(n),u,(n)) 

HPO: BYR, u 按 式 (15.29) 定 义 。 

15.9 (a)15.4 节 讨论 的 NARX 模型 的 推导 是 单 输入 单 输出 系统 。 讨 论 那里 描述 的 理论 
如 何 推 广 到 多 输入 多 输出 系统 。 

(b) 建 立 等 价 于 图 15.6 中 的 两 个 输入 一 个 输出 的 状态 空间 模型 的 NARX。 

15.10 建立 对 应 于 图 15-22 中 的 完全 递归 网 络 的 NARX。 

15.11 在 15.4 节 我 们 证 明了 任何 状态 空间 模型 可 以 表达 成 NARX 模型 。 反 过 来 的 结果 如 
何 ? 任何 的 NRAX 模型 是 否 都 可 以 表达 成 15.3 节 形 式 的 状态 空间 模型 ? 说 明 你 的 结论 的 理由 。 
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输出 
y(n +1) 





图 15-22 


通过 时 间 的 反 向 传播 

15.12 展开 图 15-3 的 状态 空间 模型 的 时 序 行为 。 

15.13 截断 的 BPTT(h) 算 法 可 以 看 作 是 分 回合 的 BPTT 算法 的 近似 。 可 以 通过 将 分 回合 
BPTT 算 法 的 一 些 方面 包括 进 BPTT(h) 来 提高 这 个 近似 程度 。 特 别 是 可 以 让 网 络 在 执行 下 一 
个 BPTT 计算 前 通过 个 附加 步 ， 这 里 hr < h。 通 过 时 间 的 反 向 传播 的 混合 形式 的 重要 特征 
是 下 一 个 后 向 传播 在 时 间 步 x + h' 之 后 才 执 行 。 在 此 期 间 ， 网 络 过 去 输入 值 、 网 络 状态 和 期 
望 的 响应 都 存储 在 一 个 缓冲 区 里 面 ， 但 并 不 对 于 它们 进行 处 理 (Williams and Peng,1990 )。 在 
这 个 混合 型 的 算法 中 给 出 神经 元 j 的 局 部 梯度 的 公式 。 
实时 递归 学 习 算法 

15.14 教师 强制 递归 网 络 在 训练 过 程 中 的 动态 在 15.8 节 中 描述 ,但 是 要 除开 下 面 的 变 
化 : 

u(n), WRES 
& (n) = di(n), 如 果 iE% 
y(n), MR ICR -& 
其 中 4 是 当 &, 是 一 个 外 部 输入 时 下 标 为 i RA. BHA E 是 一 个 神经 元 的 输出 时 下 标 ; 
的 集合 ，% 表 示 可 见 的 输出 神经 元 的 集合 。 

(a) 证 明 对 这 个 格式 ， 偏 导数 9y(n +1)/3ws(n) 由 下 式 给 出 (Williams and Zipser, 1989 ): 

eerie wu] E w Cn) SEX + Oiln) 

(b) 对 于 教师 强制 递归 网 络 推导 训练 算法 。 

RAVEK Kalman 滤波 器 (DEKF) 算 法 
15.15 描述 图 15-3 的 DEKF 算法 如 何 训练 简单 递归 网 络 。 对 于 这 个 训练 也 可 用 BPIT 算 
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法 。 

15.16 用 通常 的 形式 ，DEKF 被 用 作 执 行 权 值 更 新 ， 一 个 例子 接 一 个 例子 的 方式 进行 。 
反之 ， 在 标准 反 向 传播 里 ， 执 行 简单 的 梯度 更 新 ， 这 使 我 们 可 以 选择 立即 使 用 这 些 更 新 还 是 
将 这 些 更 新 积累 一 段 时 间 ， 然 后 将 它们 作为 单一 的 组 合 更 新 。 虽 然 可 以 在 DEKF 算法 中 尝试 
积累 ， 但 这 样 做 也 有 可 能 在 权 值 向 量 和 误差 协 方差 矩阵 间 造 成 不 一 致 ， 该 矩阵 是 每 个 时 间 递 
归 都 更 新 一 次 ， 以 产生 一 个 权 值 更 新 。DEKF 训练 算法 的 使 用 表现 为 排除 集中 式 更 新 。 但 可 
以 使 用 多 流 (multistream)DEKF 训练 ， 它 允许 多 个 训练 序列 的 进行 ， 又 保持 与 Kalman 滤波 器 
理论 的 一 致 性 ，Feldkamp et al., (1997), Feldkamp and Puskorius(1998) 中 的 描述 。 

(a) 考 虑 有 Na 个 输入 和 N 个 输出 和 固定 N 个 训练 样本 的 训练 问题 。 对 训练 样本 来 
Bi, AM MN 个 数据 流 以 馈 给 M 个 网 络 ， 这 些 网 络 受到 具有 相同 权 值 的 限制 。 在 每 个 
训练 循环 ， 每 个 数据 流 中 的 模式 呈现 给 各 自 的 网 络 ， 对 于 每 个 数据 流 计算 出 N, 个 输出 。 
然后 计算 单个 权 值 更 新 并 以 同样 的 方式 又 应 用 到 每 个 流 的 网 络 。 推 导出 DEKF 算法 的 多 流 
的 形式 。 

(b) 考 虑 标准 XOR 问题 的 四 种 训练 模式 。 假 设 有 一 个 连接 到 输出 层 的 延迟 线 记忆 的 前 
人 馈 网 络 。 我 们 有 效 地 使 用 四 个 网 络 输出 : 反馈 到 延迟 线 记忆 的 实际 的 网 络 输出 ， 三 个 它 
的 延迟 形式 ， 它 们 中 的 每 一 个 组 成 一 个 新 的 网 络 输出 。 对 这 个 网 络 结构 以 一 定 的 顺序 应 
用 四 种 训练 模式 ， 但 不 执行 权 值 更 新 。 当 第 四 个 训练 模式 结束 后 ， 就 有 了 四 个 代表 四 种 
训练 模式 处 理 过 程 的 网 络 输出 ， 这 是 在 具有 相同 权 值 的 网 络 上 进行 的 。 如 果 考 虑 在 四 种 
训练 模式 和 四 个 网 络 输出 的 基础 上 执行 DEKF 算法 的 单一 权 值 向 量 更 新 ， 就 有 了 四 个 流 问 
题 。 检 查 该 实例 。 

二 阶 递归 网 络 

15.17 在 本 题 中 ， 研 究 用 二 阶 递归 网 络 建立 相似 的 有 限 状 态 自动 机 。 在 任意 长 度 的 0， 
1 序列 中 ， 这 个 自动 机 可 以 识别 奇数 个 1。 

图 15-23 显示 两 种 状态 的 自动 机 。 状 态 由 圆圈 表示 ， 箭 头 表示 状态 的 转变 。$ 表示 我 们 
在 那个 状态 开始 ， 在 这 里 是 状态 4。 粗 圆圈 表示 无 论 何 时 达到 了 那个 状态 ， 如 图 中 的 状态 
83， 我 们 就 接受 该 字符 串 。 自 动机 开始 检查 状态 4 的 字符 串 ， 如 果 遇 到 一 个 0 就 回 到 状态 
4， 如 果 是 1 则 回 到 状态 B。 相 似 地 ， 当 在 状态 B 的 时 候 ， 如 果 遇 到 一 个 0 就 回 到 状态 B, 
如 果 遇 到 1 则 回 到 状态 4。 以 这 种 方式 ， 如 果 有 偶数 个 1( 包 括 0 个 ) 则 自动 机 在 状态 4， 如 
果 有 奇数 个 1 则 在 状态 Bo 





图 15-23 


更 正式 地 定义 状态 0 = 14，B1，S = 4 为 初始 状态 ， 输 入 字母 为 避 = {0，1| ， 接 受 状 
SA F=B, 状态 转换 函数 如 下 : 
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8(A,0) = A 
8(A,1) =B 
8(B,0) = B 
5(B,1) = A 
对 于 二 阶 递归 网 络 ， 这 就 是 式 (15.9) 的 应 用 需要 的 一 些 等 式 。 关 于 有 限 状态 自动 机 的 细节 ， 
见 Hopcroft(1979)。 
对 上 述 转 换 规则 进行 编码 到 二 阶 递归 网 络 中 去 。 
789 15.18 ”在 15.8 节 , 我们 导出 使 用 一 阶 神 经 元 的 完全 连接 递归 网 络 的 实时 递归 学 习 
(RTRL) 算 法 。 在 15.2 节 ， 我 们 描述 使 用 二 阶 神经 元 的 递归 网 络 。 
通过 推导 用 于 训练 二 阶 递归 网 络 的 RTRL 算法 ， 推 广 15.8 节 描 述 的 理论 。 





后 ic 


神经 网 络 代 表 一 种 多 学 科 主 题 ， 它 植 根 于 神经 科学 、 数 学 、 统 计 学 、 物 理学 、 计 算 机 科 
学 和 工程 学 ， 这 可 由 这 本 书 所 涵盖 题材 的 多 样 性 为 证 。 它 们 在 有 教师 或 无 教师 情况 下 从 数据 
中 学 习 的 能 力 赋予 它们 强 有 力 的 性 质 。 这 种 学 习性 质 具有 座 远 的 理论 和 实际 意义 。 神 经 网 络 
以 这 种 或 那 种 形式 从 例子 (它们 环境 的 表示 ) 学 习 的 能 力 ， 已 经 使 得 它们 在 如 此 众多 的 应 用 中 
成 为 非常 宝贵 的 工具 ， 比 如 建 模 、 时 间 序 列 分 析 、 模 式 识 别 、 信 号 处 理 和 控制 。 特 别 地 ， 当 
一 个 感 兴趣 的 问题 的 解 由 于 以 下 一 点 或 几 点 变 得 困难 时 ， 神 经 网 络 可 提供 大 量 的 东西 : 

。 缺乏 问题 的 物理 /统计 的 理解 。 

。 在 可 观察 数据 中 的 统计 变化 。 

。 数据 产生 的 非 线 性 机 制 。 

神经 网 络 的 新 浪潮 (从 20 世纪 80 年 代 中 期 开始 ) 已 经 来 临 ， 因 为 学 习 可 以 在 许多 层次 进 
行 。 基 于 学 习 算 法 的 神经 网 络 使 我 们 可 以 在 手写 体 识别 器 中 免除 手工 特征 提取 。 由 神经 网 络 
激发 的 基于 梯度 的 学 习 算 法 允许 我 们 同时 训练 特征 提取 器 、 分 类 器 和 上 下 文 处 理 器 ( 隐 
Markov 模型 和 语言 模型 )。 由 于 神经 网 络 我 们 学 会 了 从 像素 到 符号 的 所 有 途径 。 

学 习 渗 透 到 数目 日 益 增 加 的 各 种 应 用 智能 机 器 的 每 个 层面 。 因 此 ， 这 篇 后 记 以 对 某 些 智 能 
机 器 和 神经 网 络 在 建立 它们 时 的 作用 的 最 终 评论 结束 全 书 是 适宜 的 。 


智能 机 器 


由 于 智能 ”的 科学 定义 尚 不 统一 并 且 篇 幅 有 限 ， 我 们 不 
冒险 讨论 智能 是 人 什么。 相反， 我 们 将 我 们 对 智能 机 器 的 简要 
解释 限制 在 三 个 具体 应 用 领域 的 背景 下 ; 模式 分 类 、 控 制 和 
信和 号 处 理 。 这 里 要 认识 到 没有 “通用 的 ”智能 机 器 ; 相反， 我 
们 只 是 有 针对 具体 应 用 的 智能 机 器 。 

神经 网 络 的 大 部 分 研究 工作 集中 于 模式 分 类 。 由 于 模式 
分 类 的 实际 重要 性 和 它 的 相当 广泛 性 ， 以 及 神经 网 络 如 此 适 
于 解决 模式 分 类 任务 的 事实 ， 研 究 努 力 的 这 种 集中 确实 是 应 
该 的 。 这 样 做 我 们 已 经 能 够 为 自 适 应 模式 分 类 打下 基础 。 但 
是 ， 我 们 已 经 到 达 另 一 个 阶段 ， 如 果 和 希望 成 功 解决 更 加 复杂 
和 困难 的 模式 分 类 问题 ， 我 们 必须 在 一 种 更 广泛 的 意义 上 思 
考分 类 系统 。 图 1 描绘 “假定 的 "分 类 系统 布局 (Hammerstrom 
and Rahfuss,1992) 。 系 统 的 第 一 层 接受 由 信息 源 产生 的 感觉 数 。 图 1 用 于 模式 分 类 的 智能 
据 。 第 二 层 提取 刻画 感觉 数据 的 一 组 特征 。 第 三 层 将 特征 分 机 器 的 功能 结构 
类 为 一 个 或 几 个 不 相同 的 类 ， 然 后 由 第 四 层 将 它 放 人 全 局 背景 中 。 最 后 ， 例 如 、 对 最 终 用 户 
我 们 可 能 将 分 析 后 的 输入 放 入 某 种 数据 库 形式 中 。 刻 画图 1 系统 的 重要 特征 包括 : 

。 识别 ， 起 因 于 信息 从 系统 的 一 层 前 向 流动 到 下 一 层 ， 这 如 同 在 传统 的 模式 分 类 系统 
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一 样 
。 集中 ,凭借 系统 较 高 层 能 够 选择 性 地 影响 较 低 层 的 信息 处 理 ， 这 要 依靠 从 过 去 数据 
获得 的 知识 


因此 图 1 中 显示 的 模式 分 类 系统 的 新 颖 性 在 于 目标 领域 的 知识 ， 以 及 在 给 定 有 限 信 息 处 
理 能 力 的 基本 约束 下 ， 它 被 系统 较 低 层 利 用 以 便 提高 整体 系统 性 能 。 我 们 相信 使 用 神经 网 络 
的 模式 分 类 的 演化 必 将 沿 着 创建 模型 的 方向 进行 ， 这 种 模型 将 持续 受到 目标 领域 知识 的 影 
响 。 我 们 设想 用 于 模式 分 类 的 新 一 类 智能 机 器 将 提供 如 下 属性 : 

。 提取 背景 知识 的 能 力 ， 并 且 通 过 集中 (focusing) 的 使 用 利用 这 种 能 力 

。 知识 的 局 部 化 表示 而 不 是 分 布 式 表示 

。 稀 散 结构 ， 强 调 网 络 的 模块 性 和 层次 性 作为 神经 网 络 设计 的 原则 

这 样 一 种 智能 机 器 的 实现 只 有 依靠 组 合 神经 网 络 和 其 他 
合适 工具 才 有 可 能 得 到 。 这 里 想到 的 一 个 有 用 工具 是 Viterbi 
算法 ， 它 是 动态 规划 的 一 种 形式 ， 设 计 用 于 对 付 串 行 信息 处 
理 叫 ， 这 种 处 理 是 图 1 中 描述 的 系统 的 固有 特征 。( 动 态 规划 管理 和 组 织 层 
算法 在 第 12 章 讨 论 。) 

男 一 个 自然 适合 神经 网 络 的 应 用 领域 是 控制 ， 它 也 是 沿 
着 智能 控制 中 的 方向 演化 。 自 治 是 控制 系统 设计 者 一 个 重大 
目标 ， 而 智能 控制 器 是 达到 这 个 目标 的 一 种 方法 。 图 2 显示 
智能 自治 控制 器 的 功能 结构 ， 这 个 智能 自治 控制 器 在 涉及 感 
党 的 过 程 (设备 ) 一 端 有 一 个 界面 ， 而 在 人 和 其 他 系统 的 一 端 
有 另 一 个 界面 (Antsaklis et al. , 1996; Passino, 1996)。 系 统 有 三 
个 功能 层 ， 小 结 如 下 : 

1. 执行 羡 ， 它 具有 用 于 自 适应 控制 和 辨识 的 低层 信号 处 图 2 用 于 控制 的 智能 

2. 协调 层 ， 它 通过 监管 诸如 调谐 、 监 督 、 危 机 管理 和 计 
划 等 事项 提供 执行 层 和 管理 层 之 间 的 联系 。 

3. 管理 和 组 织 层 ， 它 提供 较 低层 的 功能 监督 和 对 人 的 界面 的 管理 。 

既然 经 典 控制 是 植 根 于 线性 微分 方程 组 理论 ， 智 能 控制 主要 是 基于 规则 的 ， 因 为 在 其 使 
用 中 涉及 的 相关 性 非常 复杂 以 致 不 允许 有 解析 的 表示 。 为 了 处 理 这 种 相关 性 ， 使 用 模糊 系统 
数学 和 神经 网 络 是 合适 的 。 模 糊 系 统 中 的 功能 在 于 它们 的 能 力 :(1) 量 化 语言 输入 ，(2) 快 速 
给 出 复杂 的 和 通常 未 知 的 系统 输入 -输出 规则 的 工作 近似 。 神 经 网 络 的 功能 在 于 它们 从 数据 
中 学 习 的 能 力 。 在 神经 网 络 和 模糊 系统 之 间 存 在 一 个 自然 的 最 佳 协 同 ， 使 得 它们 的 混合 对 智 
能 控制 和 其 他 应 用 而 言 是 一 个 强 有 力 的 工具 。 

下 面 转 人 信号 处 理 ， 它 也 是 神经 网 络 另 一 个 有 丰富 应 用 的 领域 ， 这 是 因为 神经 网 络 的 非 
线性 和 自 适应 特征 (Haykin,1996)。 对 于 在 实际 中 遇 到 的 信息 承载 信号 (例如 语音 信号 、 需 达 
信号 和 声 纳 信号 )， 产 生 它 们 的 大 多 数 物 理 现象 都 是 由 非 平稳 和 复杂 的 非 线 性 动态 系统 控制 ， 
使 得 它们 的 精确 数学 描述 成 为 不 可 能 。 为 了 在 所 有 时 间 利 用 这 种 信号 的 所 有 信息 内 容 ， 我 们 
需要 用 于 信号 处 理 的 智能 机 器 5 。 它 的 设计 解决 下 列 关键 论题 : 

。 非 线性 性 ， 它 使 得 提取 输入 信和 号 的 高 阶 统计 成 为 可 能 。 


A CB) 和 其 他 系统 
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础 上 自 适 应 环境 的 缓慢 变化 。 

。 注意 机 制 ， 凭 借 它 系统 通过 和 最 终 用 户 交 互 或 者 以 自 组 织 的 方式 ， 能 够 集中 它 的 计 
算 能 力 针 对 图 像 的 某 一 特别 的 点 或 空间 中 的 特定 位 置 ， 进 行 更 详细 的 分 析 甸 

图 3 表示 用 于 信号 处 理 的 智能 机 器 的 功能 结构 ， 它 涉及 
操作 的 3 个 层次 : 

1. 低层 处 理 ， 它 的 目的 是 对 收 到 的 信号 作 预 处 理 ， 为 第 
二 层 作 准备 。 预 处 理 涉 及 利用 滤波 削减 噪声 效果 和 其 他 高 级 
言 号 处 理 操作 ， 如 时 频 分 析 呈 。 时 频 分 析 的 目标 是 描述 信号 
的 谱 内 容 如 何 演变 以 及 理解 一 个 时 变 谱 是 什么 。 具 体 地 ， 把 
收 到 信号 的 一 维 ( 时 间 ) 表 示 变 换 为 二 维 图 像 ， 一 维 代表 时 间 
而 另 一 维 代表 频率 。 时 频 分 析 提 供 一 个 有 效 方法 ， 用 于 以 一 
种 远 比 原始 时 域 形式 清楚 的 方式 突出 收 到 信号 的 非 平稳 特性 。 

2. 学 习 和 自 适 应 层 ， 其 中 记忆 (长 期 的 和 短期 的 ) 和 注意 
机 制 被 能 和 人 系统 设计 中 。 例 如 ， 用 系统 所 处 环境 的 足够 大 的 
数据 集 使 多 层 感知 器 经 历 监 督学 习 ， 环 境 的 整体 统计 信息 被 
储存 在 网 络 的 突 甬 权 值 中 。 为 了 考虑 环境 随时 间 的 绥 慢 统计 m 用 于 信号 站 理 的 
变化 ， 一 个 育 自 适应 系统 ( 即 在 无 监督 方式 下 运行 的 连续 学 习 LEITER 
子 系统 ) 附 加 在 多 层 感 知 器 的 输出 端 。 学 习 过 程 也 包括 提供 一 
个 注意 网 络 ”， 和 凭借 它 系统 可 以 集中 它 的 注意 于 收 到 信号 的 重要 特征 ， 这 可 以 在 需要 时 通过 
“ 选 通 ”(gating) 从 较 低层 到 较 高 层 之 间 的 信息 流 实现 。 

3. 决策 层 ， 其 中 系统 作出 最 终 判决 。 判 决 可 以 是 感 兴趣 的 目标 是 否 出 现在 收 到 的 诸如 
雷达 或 声 纳 的 信号 中 ,或 者 在 数字 通信 中 收 到 的 信息 比特 是 否 对 应 符号 1 或 0; 在 决策 中 也 
提供 置信 级 。 

我 们 并 不 主张 这 里 描述 的 系统 是 在 系统 中 智能 可 以 嵌 人 模式 分 类 、 控 制 和 信和 号 处 理 的 惟 
一 方式 。 相 反 ， 它 们 代表 能 实现 这 个 重要 目标 的 系统 化 方法 。 尽 管 它们 存在 应 用 领域 的 差 
异 ， 它 们 确实 具有 一 些 共 同 特征 (Valvanis and Saridis, 1992; Passino, 1996) : 

。 从 较 低层 到 较 高 屋 和 相反 方向 ， 存 在 双向 信息 流 。 

。 较 高 层 经 常 关心 系统 的 那些 处 理 时 间 较 慢 、 范 围 较 广 和 横向 时 间 较 长 的 行为 。 

。 当 我 们 从 较 低层 移 到 较 高 层 时 随 着 精度 的 降低 智能 在 升 高 。 

。 在 较 高 层 ， 粒 度 有 所 下 降 ( 即 模型 的 抽象 性 上 升 )。 

我 们 在 第 1 章 通 过 将 人 脑 描述 为 巨大 的 信息 处 理 机 器 开始 (人 工 ) 神 经 网 络 的 讨论 ， 人 脑 
是 神经 网 络 的 激励 源泉 。 以 智能 机 器 的 简短 说 明 结 束 本 书 是 合适 的 ， 智 能 机 器 是 用 人 工 手 段 
进行 信息 处 理 的 最 高 级 。 建 立 智能 机 器 的 努力 将 继续 下 去 。 





注释 和 参考 文献 
[1] 从 不 同 角度 对 智能 进行 的 原理 性 讨论 ， 参 看 Ackerman (1990)，Albus(1991) 和 Kosko 
(1992) 。 


[2] Viterbi 算法 最 初 由 Viterbi 发 展 用 于 解决 通信 理论 中 的 卷 积 解码 问题 。 关 于 Viterbi 算法 
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的 指导 性 处 理 ， 参 见 Fomey(1973)。 
关于 模式 分 类 应 用 中 涉及 卷 积 网 络 ( 在 第 4 章 描述 ) 和 Viterbi 算法 的 联合 使 用 ， 参 见 
LeCun et al. (1997,1998), 
智能 控制 在 White and Sofge(1992) Antsaklis and Passino(1993) Gupta and Sinha(1996) 和 
Tzefestas(1997) 等 编辑 的 书籍 中 讨论 。 
模糊 理论 由 Zadeh(1965,1973) 创 立 ， 为 处 理 语言 变量 ( 即 用 自然 语言 描述 的 概念 ) 提 供 
数学 工具 。 以 书本 形式 处 理 模 糊 逻 辑 ， 参 看 Dubois and Prade(1980)。 在 Kosko(1997) 的 
书 中 ,采用 一 种 不 同 的 观点 : BRS YE BORA. APU ASHER 
任何 连续 函数 或 者 系统 ， 只 要 模糊 系统 使 用 足够 多 的 规则 。 

电气 和 电子 工程 师 学 会 (Institute of Electrical and Electronic Engineers, IEEE) 会 刊 1998 年 的 
一 期 专刊 讨论 智能 信号 处 理 的 主题 (Haykin and Kosko,1998)。 

用 于 分 层 集 中 或 选择 注意 的 自 组 织 系统 在 Fukushima (1988a) 中 描述 。 系 统 是 由 
Fukushima( 1975,1988b) 创 立 的 分 层 神经 认 知 机 的 变形 。 系 统 能 够 在 具有 多 个 字符 的 图 
像 中 集中 注意 于 单个 字符 或 者 集中 注意 于 变形 很 大 且 被 噪声 损害 的 字符 。 

自 组 织 注意 机 制 也 具有 由 Carpenter and Grossberg(1987, 1995) 开创 的 自 适应 谐振 理论 
(adaptive resonance theory, ART) 的 特征 。 用 于 自 适 应 模式 识别 的 ART 涉及 自 底 向 上 的 滤 
波 和 自 顶 向 下 的 模板 匹配 的 组 合 。 
建立 在 经 典 Fourier 理论 上 的 时 频 分 析 的 许多 方面 的 细节 处 理 ， 参 看 Cohen(1995) 的 书 
籍 。 
Wigner 分 布 为 双 线 性 /二 次 时 频 表示 的 重要 工具 ， 关 于 Wigner 分 布 的 理论 和 应 用 ， 参 看 
Mecklenbriuker and Hawatsch(1997 ) 的 书籍 。 
对 于 用 尺度 而 不 用 频率 思考 的 另 一 种 角度 ， 参 见 Vetterli and Koratevie(1995) 关 于 小 波 
(wavelet) 和 子 带 编码 的 相关 论题 的 书籍 。 
在 van de Laar et al.(1997) 中 描述 用 于 选择 性 转换 视觉 注意 的 神经 网 络 模型 。 这 个 模型 
根据 所 完成 的 任务 通过 调制 在 预 注意 阶段 的 信息 流 能 够 学 会 集中 它 的 注意 于 重要 特征 。 
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interpolation matrix, 264 ”插值 矩阵 
Inverse problem, 265 ia] Ei 
conditions for well-posedness, 266 ja RIF 
Iteratively reweighted least-square, 389 REMER 
小 平方 
Jacobian matrix, 125, 204, 670 Jacobi 矩阵 
computation of, 202-204 ”计算 
Jensen’s inequality, 391 Jensen 不 等 式 


Kalman filter, 151, 762-765 Kalman 滤波 器 
conversion factor, 765 ”转换 因子 
divergence phenomenon, 765 ”发 散 现象 
error-covariance matrix, 764 RÆDDI EES 
filtered estimation eror, 765 ” 滤 后 估计 误差 
innovation，763 更 新 
square root，763 ”平方 根 
summary，764 小 结 
Kalman filter, decoupled extended, 765 - 770 Kalman 滤 
Kas, ART E 
artificial process noise, 769 ”人工 过 程 噪 声 
computational complexity, 770-771 ”计算 复杂 性 
multistream, 788 ”多 流 
summary，769 - 770 ”小 结 
Karhunen-Loéve transform, see Principal components 
analysis Karhunen-Loéve 变换 ， 参 看 主 分 量 分 析 
Kemel matrix, 433 RR 
Kernel principal components analysis, 432 
析 


核 主 分 量 分 


summary，435 “小结 
Knowledge, definition, 23 知识， 定义 
Kullback-Leibler divergence (distance), 487, 495 - 497 
Kullback-Leibler 散 度 (距离 ) 
pythagorean decomposition, 497 Pythagoras 分 解 
relation to mutual information, 496 与 互信 息 的 关系 


Lateral inhibition, 59 ” 侧 向 抑制 
Leaming，25 ”学 习 

definition, 50 定义 

statistical theory, 84 统计 理论 
Learning task, 66 学习 任务 

beamforming, 73 PRR At 

control, 70 ”控制 

filtering, 71 ”滤波 

function approximation, 68 PXOM 
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pattern association, 66 ”模式 联想 
pattern recognition, 67 ”模式 识别 
Learning vector quantization, 467 ”学 习 向 量 量化 
Learning with a teacher, 63 ”有 教师 学 习 
Learning without a teacher, 64 ”无 教 师 学 习 
Least-mean-square (LMS) algorithm，128 - 135 最 小 
均 方 算法 
convergence, 130-132 MX 
LMS-Newton algorithm, 153 LMS-Newton 算法 
learning curve, 133-134 学 习 曲 线 
leaming-rate annealing, 134-135 学 习 率 退火 
misadjustment, 133 ” 误 调 整 
normalized LMS algorithm, 152 ”正规 化 的 LMS 算法 
Least-squares filter, linear, 126 ~ 128 ”最 小 二 乘 滤波 
器 ， 线 性 
Likelihood ratio, 145, 188 {DSR EK 
log-likelihood ratio, 146 ”对 数 似 然 比 
Likelihood ratio test, 145 {USA EIR 
Line search, 240-242 ”直线 搜索 
Linear separability, 138 ”线性 可 分 性 
Linsker’s model of mammalian visual system, 395 
Linsker 的 哺乳 动物 视觉 系统 模型 
Little model，726 ”小 模型 
Local minima, definition, 249 ”局 部 最 小 ， 定 义 
Logistic function, 14, 45, 168 Logistic 函数 
Long-term potentiation (LTP), 107 ”长 期 电位 (LIP) 
Lyapunov’s theorems, 673-674 Lyapunov 定理 
Lyapunov function, 674 Lyapunov A% 


Mahalanobis distance, 27 Mahalanobis 距离 
Marginal entropy, 497 边缘 入 
Markov blanket, 583 Markov 层 
Markov chains, 548-556 Markov 链 
Chapman- Kolmogorov identity, 550 Chapman- 
Kolmogorov 恒等式 
classification, 555 ”分 类 
definition, 548 和 定义 
ergodic, 551 遍历 
ergodicity theorem, 552 遍历 性 定理 
irreducible, 550-551 不 可 约 
principle of detailed balance，555 - 556 ”细节 平衡 原 
则 
recurrent property, 550 ”递归 性 质 


state-transition diagram, 553 ”状态 转移 图 
stochastic matrix, 549 ”随机 和 矩阵 
transition probability, 549 ”转移 概率 
Markovian decision processes, 604 - 606 Markov RE 
过 程 
Matrix inversion lemma, 225 ”和 矩阵 求 逆 引 理 
Maximum a posteriori (MAP) estimation, 389 ”最 大 后 
验 (MAP) 估 计 
Maximum eigenfilter, Hebbian based，404 ”最 大 特征 
滤波 器 ， 基 于 Hebb 的 
stability, 408 ”稳定 
Maximum entropy method for blind source separation, 529 
-533 AIT RRS BMRA 
equivalence with maximum likelihood, 531 
大 似 然 
learning algorithm, 532-533 ”学 习 算 法 
Maximum entropy (Max Ent) principle，490 Ax AUR 
理 
Maximum likelihood estimation, 378 ”最 大 似 然 估计 
log-likelihood function, 379 ”对 数 似 然 函 数 
property, 388 ”性 质 
Maximum likelihood estimation for blind source separation, 
525-528 用 于 言 源 分 离 的 最 大 似 然 估计 
relationship with indepcndent components analysis, 527 
-528 和 独立 分 量 分 析 的 关系 
Maximum mutual information (Infomax) principle, 484, 
499-503 最 大 互信 息 原则 
model for perceptual system, 504-505 ”感知 系统 模型 
relation to redundancy reduction, 503-505 53704 
削减 的 关系 
McCulloch-Pitts model, 14, 38, 135 
模型 
Mean-field theory, 576-578 ”平均 场 理 论 
Memory, 75 ”记忆 
associative, 67 ”联想 
correlation matrix, 79-83 ”相关 矩阵 
crosstalk, 81 AF 
distributed, 75 ”分 布 式 
long-term, 75 长 期 
recall, 80 ”回忆 
short-term, 75 ”短期 
Memory, short-term structure, 636 - 640 
结构 


等 价 于 最 


McCulloch- Pitts 


记忆 ， 短 期 
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memory depth, 638 ”记忆 深度 
memory resolution, 638 ”记忆 分 辩 率 
Memory-based learning, 53 ”基于 记忆 的 学 习 
k-nearest neighbor rule, 54 -最 近邻 规则 
nearest neighbor rule, 54 ”最 近邻 规则 
Mercer’s theorem, 331 Mercer 定理 
Method of Lagrange multiplier, 223, 323, 490 
Lagrange RT 
dual problem, 323, 328, 342 ”对 偶 问 题 
duality theorem, 324 ”对 偶 性 定理 
Kuhn-Tucker condition，323 Kuhn-Tucker 条 件 
primal problem，323，328，342，” 原 问题 
Method of steepest descent, see Optimization technique, 
unconstrained ”最 速 下 降 法 ， 参 看 最 优化 技术 ， 无 约 
R 
Metropolis algorithm, 556-558 Metropolis 算法 
Michelli’s theorem, 264-265 Michelli 定理 
Minimum description length (MDL) criterion, 253 ”最 小 
描述 长 度 准则 
Minimum-norm solution, see Pseudoinverse ”最 小 范 数 
fe, Bw 
Minor components analysis (MCA), 440 ”次 分 量 分 析 
(MCA) 
Mixture of experts (ME) model, 368 
模型 
Model-reference adaptive control, 780-782 ”参考 模型 
自 适应 控制 
Modularity, definition, 352 ”组 件 性 ， 定 义 
Monomial, 259 ”单项 式 
Multilayer perceptron, 156 ”多 层 感知 器 
bounds on approximation error, 209 ~ 211 
的 界 
feature detection, 199, 227 ”特征 检测 
feature space, 199 ”特征 空间 
recurrent, 736-737 ”递归 
Multinomial probability, 369 ”多 元 正 态 概率 
Multivariate Gaussian functions (distribution), 275, 297, 
492 ”多 元 Gauss 函数 (分 布 ) 
Mutual information, 492 ”互信 息 
for self-organized leaming，498 用 于 自 组 织 学 习 
propery，493 HEIR 


NP-complete problem, 347 ”NP 完全 问题 


混合 专家 (ME) 


Nadaraya-Watson regression estimator, 296, 479 
Nadaraya- Watson 回归 估计 器 
Natural gradient, 521, 540 ”自然 梯度 
Nat, 486 24 
Neocognitron, 108, 251, 795 
NETtalk, 641 - 642 
Network pruning technique, 218 ~ 226 ”网 络 修剪 技术 
approximate smoother, 221-222 ”逼近 光滑 器 
complexity regularization, 219-222 ”复杂 性 正则 化 
optimal brain damage, 222 ”最 优 脑 损 伤 
optimal brain surgeon，222 - 226 ”最 优 脑 外 科 
weight decay, 220 WARR 
weight elimination, 220 (HAR 
Neural network， 神 经 网 络 
adaptivity, 3 AGATE 
architecture, 21 ”结构 
definition, 2, 17 定义 
fault-tolerance, 4 容错 
input-output mapping, 3 ”输入 -输出 映射 
invariances built into, 29 AREH 
neurobiological analogy, 4 ”神经 生物 类 比 
property, 2 ”性 质 
Neurodynamic programming, 603-634 ”神经 动态 规划 
finite-horizon problem, 606 有限 范 围 问 题 
infinite-horizon problems, 606 “无限 范围 问题 
policy, 106 ”策略 
relation to reinforcement learning, 603 “与 增强 式 学 
习 
Neuron, 7 神经 元 
models of, 10, 15 ”模型 
Neuronal filters ”神经 滤波 器 
distributed，648 ”分 布 式 
focused，644 EPR 
Neuromorphic systems，5 ”神经 形态 系统 
Newton’s method，235 Newton 方法 
Neyman-Pearson criterion, 28 Neyman-Pearson 准则 
Nonlinear principal components analysis, 434, 440 非 
线性 主 分 量 分 析 
Normed space, 267, 309 ” 赋 范 空间 


Occam’s razor, 206, 363 Occam 剃刀 
Optimal brain surgeon algorithm, 226 ”最 优 脑 外 科 算 法 
Optimal hyperplane, 320 ”最 优 超 平面 


神经 认 知 机 
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quadratic method for computing, 322 - 325, 326 if 
算 的 二 次 方法 
statistical property, 325 ”统计 性 质 
Optimization technique, unconstrained, 121 - 126 最 优 
化 技术 ， 无 约束 
Gauss-Newton method，124 - 126 Gauss-Newton 方 
法 
method of steepest descent，121 - 122 
法 
Newton’s method, 122-124 Newton 方法 
quasi-Newton method, 242 #1 Newton 方法 
Ordered derivative, 755 ”有 序 导数 
Orthogonal similarity transformation, 399 iF 3% #8 (1 Æ 
换 
Outer product rule, see Hebbian leaming 外 积 规 则 ， 
参看 Hebb 学 习 


Partition function, 547 #4) eR Ae 
Perceptron, 135-143 ”感知 器 
relation to Bayes classifier, 143-148 与 Bayes 分 类 
器 的 关系 
Perceptron convergence algorithm (theorem), 141 感知 
器 收敛 算法 (定理 ) 
summary，142 ”小 结 
Piecewise-linear function，14，703 ABRAR 
Plasticity，1 可 塑性 
Polak-Ribiére formula, 239 Polak-Ribiére 公式 
Policy, 606 ”策略 
Policy iteration, 610-612 ”策略 和 迭代 
approximate, 619-622 iH 
Positive definite matrix, definition, 151 
义 
Prediction, 72, 645, 771 预测 
Principal components definition, 400 ” 主 分 量 定义 
Principal components analysis, 326 that 
adaptive method, 431 HEMDE 
batch methods, 431 ”集中 式 方 法 
decorrelating algorithm, 430 ”去 相关 算法 
eigenstructure，397 ”特征 结构 
nonlinear，434，440” 非 线性 
principal subspace，430 ”主子 空间 
reestimation algorithm, 430 ” 重 估计 算法 
Principal curve (surface), 440, 461 主 曲 线 ( 曲 面 ) 


最 速 下 降 方 


正定 矩阵 ， 定 


Principle of detailed balance, 555-556 ”细节 平衡 原则 
Principle of minimal free energy, 548 ”最 小 自由 能 量 原 
则 

Principle of minimum redundancy, 504 ”最 小 元 余 原 则 
Principle of orthogonality，85，402” 正 交 性 原则 
Principle of topographic map formation, 445 ”拓扑 映射 
形成 原则 

Probably approximately correct (PAC) model，102 - 105, 
357 ”可 能 近似 正确 (PAC) 模 型 

Probability of correct classification, 191 正确 分 类 概率 
Probability of error ( misclassification), 191 误差 ( 错 
分 ) 概 率 

Pruning，see Network pruning technique 
络 修剪 技术 

Pseudo-differential operator, 276 fyi AT 
Pseudoinverse, 127, 284 fhitt 
Pseudotemperature, 15, 547 WAE 


Q-factor, 610-611 QAF 

Q-learning, 622-627, 631-632 QJ 
approximate, 624-625 E 
convergence theorem, 623 ”收敛 定理 
exploration, 625-627 ”探索 

Quadratic programming, 345 ZIHR] 
commercial library, 348 ”商用 库 

Quasi-Newton method, 242 ” 拟 -Newton 方法 


Radial basis function, 264 4ER% 
Gaussian, 264, 275, 297 Gauss 的 
inverse multiquadric, 264 WEK 
multiquadric, 264 ”多 二 次 
Radial basis-function (RBF) network, 256 ” 径 向 基 函 数 
(RBF) 网 络 
approximation property, 290-293 EtA 
comparison with multilayer perceptron, 293 MAE 
感知 器 比较 
computational complexity, 292 ”计算 复杂 性 
generalized, 278-280 ”广义 的 
learning strategy, 298-305 ”学 习 策略 
normalized, 296 ” 归 一 化 的 
relation to kernel regression，294 与 核 回归 的 关系 
sample complexity, 292 ”样本 复杂 性 
Random walk, 597 ”随机 漫游 
Real-time recurrent learning, 756-762 ”实时 递归 学 习 


修剪 ， 参 看 网 





Æ H 


631 





computational complexity，771 ”计算 复杂 性 


sensitivity graph, 761 ”敏感 图 
summary, 760 小 结 
teacher forcing, 762, 787 ”教师 强迫 
Receptive field, 28, 45, 87, 282 ”接受 域 
Recurrent (neural) network, 18, 23, 677-678 ”递归 
(神经 ) 网 络 
Recurrent network, dynamically driven, 732 - 789 递 
归 网 络 ， 动 态 驱动 
computational power, 747 -749 ”计算 能 力 
controllability and observability, 741 - 742 
和 可 观察 性 


heuristics, 751 


可 控制 性 


启发 式 
input-output model, 733-735 ”输入 输出 模型 
leaming algorithm, 750-751 ”学习 算法 
local controllability, 743-744 ”局 部 可 控制 性 
local feedback, 786 ”局 部 反馈 
local observability, 744-746 ”局 部 可 观察 性 
network architecture, 733-739 ”网 络 结构 
nonlinear autoregressive with exogenous input，746 ~ 
747 具有 外 部 输入 的 非 线 性 自 回归 
recurrent multilayer perceptron, 736-737 ”递归 多 层 
感知 器 
second-order model，737 -739 ”二 阶 模型 
state-space model, 735 - 736, 739-746 ”状态 空间 
模型 
vanishing gradients, 773-776 ”消失 梯度 
Recursive least-square (RLS) algorithm, 151 
平方 (RIS) 算 法 
Redundancy, 394, 503 TR 
measure for, 505 [EH 
Regression， 回 归 
kernel, 294-298 核 
nonlinear, 85, 285 4ERHE 
ridge, 311 4 
Regression surface, 371 


递归 最 小 


回归 曲面 
Regularization network, 277-278 正则 化 网 络 
Regularization theory, 219, 267 ”正则 化 理论 
applied to dynamic reconstruction, 718 ”应 用 于 动态 
重 构 
regularization parameter, 268, 284-290 ”正则 化 参 
数 


Reinforcement learning, 64-65, 603, 631 增强 式 学 


习 

Relative entropy, see Kullback-Leibler divergence 相对 
Ri, 2 Kullback-Leibler BUE 
Relative gradient, see Natural gradient 
看 自然 梯度 

Replicator, 227-229, 250-251 
Retina, 5 视网膜 

Reimannian space, 540 Reimann 空间 

Riesz representation theorem, 269 Riesz 表示 定理 
Robusiness，151，230 ”和 鲁 棱 性 ， 健 壮 性 

Rosenblatt 感知 


相对 梯度 ， 参 


复制 器 


Rosenblatt’s perceptron, see Perceptron 
Saddle point, 670 ”鞍点 
Saliency, 223 ”显著 性 
Sample complexity, 104 ”样本 复杂 性 
Sauer’s lemma, 99, 110 Sauer 引 理 
Schlafli’s theorem, 309 Schlafli 定理 
Search-then-convergence learning schedule, 135 ”搜索 后 
收敛 学 习 调度 
Self-organization, 65, 393 HH 
principle of, 393 ”原则 
Self-organizing map (Kohenen’s model), 446 ” 自 组 织 映 
射 (Kohenen 模型 ) 
batch version, 459 ”集中 式 
competitive process, 448, 478 “竞争 过 程 
conscience algorithm, 481 ”知觉 算法 
convergence phase, 453 ”收敛 阶段 
cooperative process, 449 ”合作 过 程 
density matching, 460 ”密度 匹配 
neighborhood function, 450 ” 邻 域 函 数 
ordering phase, 452 ”排序 阶段 
property, 454 ”性 质 
renonormalized algorithm, 450, 483 ” 重 正 规 化 算法 
summary，453 ”小 结 
synaptic adaptation, 451, 478 ” 突 触 适 应 
topological ordering，459 ”拓扑 序 
Semantic maps, see Contextual maps 语义 上 映射， 参看 
上 下 文 映射 
Sensitivity, 203, 230 KÆ 
Shape-from-shading, 438 ”阴影 成 像 
Sigmoid belief network，569 - 574 ”sigmoid 信 度 网 络 
deterministic，579 - 586 ”确定 性 
leaming rule, 571-573 ”学 习 规 则 
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mean-field distribution, 580 ”平均 场 分 布 
mean-field equation, 583 ”平均 场 方程 
Sigmoid function, 14 sigmoid 函数 

Signal-flow graph, 15 ”信号 流 图 
basic rule, 16 ”基本 规则 

Singular value decomposition, 431 
singular value, 431 ”奇异 值 
singular vector, 431 ”奇异 向 量 

Simulated annealing, 558-560 ”模拟 退火 
annealing schedule, 559-560 ”退火 进度 

组 合 优化 


奇异 值 分 解 


combinatorial optimization, 560 — 561 
Slack variable, 326, 341 ”松弛 变量 
Smoothing, 72 ”光滑 
Smoothness, measure of, 310 ”光滑 性 ， 度 量 
Spatially coherent feature, 506-508 ”空间 相干 特征 
Spatially incoherent feature, 508-510 ”空间 非 相 干 特 
征 
Spectral theorem, 399 REM 
Spectrogram, 642 WE 
Spline， 样 条 

thin-plate, 312 ”薄板 
Stability, 672-673 ”稳定 性 

Lyapunov’s theorem, 673 - 674 Lyapunov 定理 
Stability-plasticity dilemma, 4 ”稳定 性 - 可 塑性 困境 
Stagecoach problem, 614-617, 627-629 ” 驿 车 问题 
State-space model of recurrent network, 739-746 ”递归 
网 络 状态 空间 模型 
Statistical independence, 495 ”统计 独立 
Statistical mechanics, 546-548 ”统计 力学 
Stochastic machines rooted in statistical mechanics, 545 — 
595 ” 植 根 于 统计 力学 的 随机 机 器 
Storage capacity of a surface, 261 - 262 
a 
Stochastic approximation, 135 ”随机 逼近 
Structural risk minimization, 100-102 ”结构 风险 最 小 
化 
Sub-Gaussian distribution, 541 次 Gauss 分 布 
Super-Gaussian distribution, 541 #8 Gauss 分 布 
Supervised leaming, 63 ”有 监督 学 习 

as ill-posed hypersurface reconstruction problem, 265 

-266 ”如 不 适 定 的 曲面 重 构 问 题 

as optimization problem, 234-245 ”如 最 优化 问题 
Support vector, 321 支持 向 量 


曲面 的 存储 容 


Support vector machine, 318 ”支持 向 量 机 
comparison with back-proprogation learning, 338 — 339 
与 反 向 传播 学 习 比 较 
optimum design，332 ”最 优 设 计 
pattem recognition, 329 ”模式 识别 
regression, 340 ”回归 
Subspace decomposition, 403 ” 子 空 间 分 解 
上 确 界 
Synapse, 6 R fik 
chemical synapse, 6 WFR fh 
Synaptic convergence, 16 ” 突 触 会 聚 
Synaptic divergence，17” 突 触 散 发 
System identification, 120, 659, 776 - 779 
识 ， 系 统 识 别 
input-output model, 778—779 ”输入 输出 模型 
state-space model, 776-778 ”状态 空间 模型 


Tapped-delay-line memory, 638 - 639 ” 抽 头 延迟 线性 
记忆 
TD-gammon，631 


Supremum，91 


系统 办 


Temporal difference leaming, 631 ”时 间 差 分 学 习 
Temporal processing，635 - 663 ”时 间 过 程 
network structures for, 640-643 ”网 络 结构 
Threshold function, 12 Wf pa 3 
Tikhonov functional, 268 Tikhonov YZ PK 
Tikhonov-Philips regularization, see Regularization theory 
Tikhonov-Philips 正则 化 ， 参 看 正则 化 理论 
Time, 635 时间 
explicit representation, 635 ” 显 式 表示 
隐 式 表示 
Time-delay neural network, 641 - 643 ”时 间 延 迟 神经 
网 络 
Time-frequency analysis，795 ”时 频 分 析 
Time-lagged feedforward network, 636, 659 时间 滞后 
前 馈 网 络 
distributed, 651 分布 式 
focused, 643 - 646 ”集中 式 
universal myopic mapping theorem, 646-647 通用 
近视 映射 定理 
Topographic maps, 8 拓扑 映射 
Travelling salesman problem, 597-598 ”旅行 商 问 题 
solution using Hopfield model, 723 -724 ”使 用 
Hopfield 模型 的 解 


implicit representation, 635 
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Turing machine, 748 Turing 机 

Unit-delay operator, 19 ”单位 延迟 操作 

Universal approximation theorem, 208-209, 229 ”通用 
BEEM 

Univereal myopic mapping theorem, 646 - 647 通用 近 
视 映 射 定理 

Unsupervised leaming, 65 ”无 监督 学 习 


Value iteration, 612-617 和 值 迭代 
Vanishing gradients problem, 773-776 ”消失 梯度 问题 
VC dimension, 94-98 VC% 
bound, 97, 110 FE 
definition, 95 定义 
Vestibule-ocular reflex, 5 ”前 庭 视觉 反射 
Voronoi cell, 466 Voronoi 单元 


Volterra model, 762 Volterra 模型 


Weak learning model, 358 33K 

Weierstrass theorem, 249 Weierstrass 定理 
Weight-sharing, 28, 89 IAHE 

Weighted norm, 280 加权 范 数 

Wiener filters, 127-128 Wiener 滤波 器 

Willshaw-von der Malsburg’s model, 446 Willshaw-von 
der Malsburg 模型 

Winner-takes-all neuron, 58 上 胜 者 全 得 神经 元 
Woodbury’s equality, see Matrix inversion lemma 
Woodbury 等 式 ， 参 看 矩阵 逆 引 理 

XOR problem, 175-178, 252, 260-261, 282 - 284, 
335-337 XOR 问题 


Z-transform, 637 ”2 变换 


